ソリューションエージェント研究所

#評価と改善

5件の記事

ユーザーフィードバックを改善ループに組み込む

ユーザーフィードバックを改善ループに組み込む

フィードバック収集UIの設計からデータスキーマ・自動分類・優先度付け・プロンプト改善への反映・効果検証まで、ユーザーフィードバックを継続的な改善サイクルに組み込むための実践的な設計を解説します。

評価と改善

開発ノート

プロンプト回帰テスト：変更で壊れていないかを検知する

プロンプト回帰テスト：変更で壊れていないかを検知する

プロンプトを1行直したら別のケースが壊れた——を防ぐ、ゴールデンデータセットと評価関数を組み合わせた回帰テストの設計と、GitHub ActionsへのCI組み込みまでを段階的に解説します。

評価と改善

開発ノート

LLM-as-a-Judge：モデルにモデルを評価させる手法と落とし穴

LLM-as-a-Judge：モデルにモデルを評価させる手法と落とし穴

LLMを評価者として活用する自動評価の組み方、人手評価との一致率の確かめ方、評価モデル自身が持つバイアスと緩和策を、TypeScriptのコードとともに解説します。

評価と改善

開発ノート

評価データセットの作り方：ゴールデンケースの集め方

評価データセットの作り方：ゴールデンケースの集め方

実利用ログから代表ケースを抽出し、期待出力（ゴールデン）を定義する手順を解説します。少数精鋭のテストケースが開発速度を上げる理由と、データセットを育て続けるための仕組みを示します。

評価と改善

開発ノート

評価設計の基本：エージェントの品質をどう測るか

評価設計の基本：エージェントの品質をどう測るか

正確性・完了率・対話効率などの指標の立て方と、主観評価をルーブリックで定量化する手順を解説します。評価カテゴリ全体の見取り図となる入口記事です。

評価と改善

開発ノート

当サイトではCookieを使用しています。詳しくはCookieポリシーをご覧ください。