#評価と改善
5件の記事
ユーザーフィードバックを改善ループに組み込む
フィードバック収集UIの設計からデータスキーマ・自動分類・優先度付け・プロンプト改善への反映・効果検証まで、ユーザーフィードバックを継続的な改善サイクルに組み込むための実践的な設計を解説します。
評価と改善
5日
開発ノートプロンプト回帰テスト:変更で壊れていないかを検知する
プロンプトを1行直したら別のケースが壊れた——を防ぐ、ゴールデンデータセットと評価関数を組み合わせた回帰テストの設計と、GitHub ActionsへのCI組み込みまでを段階的に解説します。
評価と改善
5日
開発ノートLLM-as-a-Judge:モデルにモデルを評価させる手法と落とし穴
LLMを評価者として活用する自動評価の組み方、人手評価との一致率の確かめ方、評価モデル自身が持つバイアスと緩和策を、TypeScriptのコードとともに解説します。
評価と改善
5日
開発ノート評価データセットの作り方:ゴールデンケースの集め方
実利用ログから代表ケースを抽出し、期待出力(ゴールデン)を定義する手順を解説します。少数精鋭のテストケースが開発速度を上げる理由と、データセットを育て続けるための仕組みを示します。
評価と改善
5日
開発ノート評価設計の基本:エージェントの品質をどう測るか
正確性・完了率・対話効率などの指標の立て方と、主観評価をルーブリックで定量化する手順を解説します。評価カテゴリ全体の見取り図となる入口記事です。
評価と改善
5日
開発ノート