開発ノート

16件の記事

運用・評価・ケーススタディなど開発現場の知見

BizPlanのAIガード:業務エージェントを守る多層防御の設計

BizPlanのAIガード:業務エージェントを守る多層防御の設計

事業計画エージェントBizPlanに組み込んだAIガード(入力・出力の検査機構)を、多層防御の設計思想を軸に紹介します。検知パターンの詳細は公開せず、層の組み立て方と運用設計に焦点を当てます。

開発ノート
5日
BizPlanのアーキテクチャ全体像:6レイヤー構造と汎用AIエージェント基盤の設計

BizPlanのアーキテクチャ全体像:6レイヤー構造と汎用AIエージェント基盤の設計

提供中の事業計画エージェントBizPlanを支える6レイヤー構造を、汎用基盤とドメイン固有部の分離という設計思想を軸に紹介します。ハーネス核の設計(Function Callingループ・RAG注入・ストリーム抽象)から拡張の考え方まで、TypeScriptの解説用コードとともに解説します。

開発ノート
5日
モデル選定の実際:タスク別にどのモデルを使い分けるか

モデル選定の実際:タスク別にどのモデルを使い分けるか

コスト・速度・品質の3軸でモデルの使い分け基準を整理し、自分のタスクで比較検証するベンチマークスクリプトとモデルルーティングの実装をTypeScriptで解説します。選定に迷ったときの早見表付きです。

開発ノート
5日
BizPlanの裏側:事業計画エージェントのハーネス設計を公開します

BizPlanの裏側:事業計画エージェントのハーネス設計を公開します

提供中エージェントBizPlanの設計思想——フェーズ設計・質問順序・成果物スキーマ——を、簡略化した実装例とともに紹介します。なぜその構造にしたかという設計判断の理由に焦点を当てた、ケーススタディ連載の第1弾です。

開発ノート
5日
ユーザーフィードバックを改善ループに組み込む

ユーザーフィードバックを改善ループに組み込む

フィードバック収集UIの設計からデータスキーマ・自動分類・優先度付け・プロンプト改善への反映・効果検証まで、ユーザーフィードバックを継続的な改善サイクルに組み込むための実践的な設計を解説します。

評価と改善
5日
プロンプト回帰テスト:変更で壊れていないかを検知する

プロンプト回帰テスト:変更で壊れていないかを検知する

プロンプトを1行直したら別のケースが壊れた——を防ぐ、ゴールデンデータセットと評価関数を組み合わせた回帰テストの設計と、GitHub ActionsへのCI組み込みまでを段階的に解説します。

評価と改善
5日
LLM-as-a-Judge:モデルにモデルを評価させる手法と落とし穴

LLM-as-a-Judge:モデルにモデルを評価させる手法と落とし穴

LLMを評価者として活用する自動評価の組み方、人手評価との一致率の確かめ方、評価モデル自身が持つバイアスと緩和策を、TypeScriptのコードとともに解説します。

評価と改善
5日
評価データセットの作り方:ゴールデンケースの集め方

評価データセットの作り方:ゴールデンケースの集め方

実利用ログから代表ケースを抽出し、期待出力(ゴールデン)を定義する手順を解説します。少数精鋭のテストケースが開発速度を上げる理由と、データセットを育て続けるための仕組みを示します。

評価と改善
5日
評価設計の基本:エージェントの品質をどう測るか

評価設計の基本:エージェントの品質をどう測るか

正確性・完了率・対話効率などの指標の立て方と、主観評価をルーブリックで定量化する手順を解説します。評価カテゴリ全体の見取り図となる入口記事です。

評価と改善
5日

当サイトではCookieを使用しています。詳しくはCookieポリシーをご覧ください。