home/categories/machine-learning/danielmiessler-personal-ai-infrastructure-releases-v4-0-0-claude-skills-utilities-evals-skill-md

machine-learningdata-ai

evals

Name: evals
Author: danielmiessler

Objective eval metrics via code/model/human graders with pass@k/pass^k scoring. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test, run eval, compare models, compare prompts, create judge, create use case, view results, failure to task, suite manager, transcript capture, trial runner.

檢視原始碼 machine-learning

maintainer

danielmiessler

更新於 2/28/2026

星標

11259

分支

1568

quick start

Installation and usage

安裝

$ install --globalskills.sh

使用

安裝後，您可以透過在終端機執行以下指令來使用此技能：

skills use evals