開発ノート

16件の記事

運用・評価・ケーススタディなど開発現場の知見

BizPlanのAIガード：業務エージェントを守る多層防御の設計

事業計画エージェントBizPlanに組み込んだAIガード（入力・出力の検査機構）を、多層防御の設計思想を軸に紹介します。検知パターンの詳細は公開せず、層の組み立て方と運用設計に焦点を当てます。

提供中の事業計画エージェントBizPlanを支える6レイヤー構造を、汎用基盤とドメイン固有部の分離という設計思想を軸に紹介します。ハーネス核の設計（Function Callingループ・RAG注入・ストリーム抽象）から拡張の考え方まで、TypeScriptの解説用コードとともに解説します。

コスト・速度・品質の3軸でモデルの使い分け基準を整理し、自分のタスクで比較検証するベンチマークスクリプトとモデルルーティングの実装をTypeScriptで解説します。選定に迷ったときの早見表付きです。

提供中エージェントBizPlanの設計思想——フェーズ設計・質問順序・成果物スキーマ——を、簡略化した実装例とともに紹介します。なぜその構造にしたかという設計判断の理由に焦点を当てた、ケーススタディ連載の第1弾です。

フィードバック収集UIの設計からデータスキーマ・自動分類・優先度付け・プロンプト改善への反映・効果検証まで、ユーザーフィードバックを継続的な改善サイクルに組み込むための実践的な設計を解説します。

プロンプトを1行直したら別のケースが壊れた——を防ぐ、ゴールデンデータセットと評価関数を組み合わせた回帰テストの設計と、GitHub ActionsへのCI組み込みまでを段階的に解説します。

LLMを評価者として活用する自動評価の組み方、人手評価との一致率の確かめ方、評価モデル自身が持つバイアスと緩和策を、TypeScriptのコードとともに解説します。

実利用ログから代表ケースを抽出し、期待出力（ゴールデン）を定義する手順を解説します。少数精鋭のテストケースが開発速度を上げる理由と、データセットを育て続けるための仕組みを示します。

正確性・完了率・対話効率などの指標の立て方と、主観評価をルーブリックで定量化する手順を解説します。評価カテゴリ全体の見取り図となる入口記事です。