home/categories/llm-ai/daishiman-aiworkfloworchestrator-docs-99-claude-skills-prompt-testing-evaluation-skill-md
llm-aidata-ai

prompt-testing-evaluation

プロンプトのテスト、評価、反復改善を専門とするスキル。A/Bテスト、評価メトリクス、自動化されたプロンプト品質保証により、本番環境で信頼性の高いプロンプトを実現します。 Anchors: • Test-Driven Development: By Example (Kent Beck) / 適用: Red-Green-Refactorサイクル / 目的: 反復的な品質改善 • LLM-as-a-Judge pattern / 適用: 自動評価とスコアリング / 目的: スケーラブルな品質評価 • A/B Testing for AI Systems / 適用: プロンプト比較実験設計 / 目的: データドリブンな改善 Trigger: Use when testing prompts, evaluating prompt quality, running A/B tests on prompts, implementing automated prompt evaluation, or establishing continuous prompt improvement cycles. Keywords: prompt testing, A/B testing, evaluation metrics, LLM-as-a-judge, prompt quality, automated evaluation, regression testing

daishiman
maintainer
daishiman
更新日 1/18/2026
スター
4
フォーク
0
quick start

Installation and usage

プロンプトのテスト、評価、反復改善を専門とするスキル。A/Bテスト、評価メトリクス、自動化されたプロンプト品質保証により、本番環境で信頼性の高いプロンプトを実現します。 Anchors: • Test-Driven Development: By Example (Kent Beck) / 適用: Red-Green-Refactorサイクル / 目的: 反復的な品質改善 • LLM-as-a-Judge pattern / 適用: 自動評価とスコアリング / 目的: スケーラブルな品質評価 • A/B Testing for AI Systems / 適用: プロンプト比較実験設計 / 目的: データドリブンな改善 Trigger: Use when testing prompts, evaluating prompt quality, running A/B tests on prompts, implementing automated prompt evaluation, or establishing continuous prompt improvement cycles. Keywords: prompt testing, A/B testing, evaluation metrics, LLM-as-a-judge, prompt quality, automated evaluation, regression testing

インストール
$ install --globalskills.sh
使い方

インストール後、ターミナルで以下のコマンドを実行してこのスキルを使用できます:

skills use prompt-testing-evaluation