home/categories/academic/davila7-claude-code-templates-cli-tool-components-skills-ai-research-evaluation-lm-evaluation-harness-skill-md

academicresearch

evaluating-llms-harness

Name: evaluating-llms-harness
Author: davila7

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

檢視原始碼 academic

maintainer

davila7

更新於 1/20/2026

星標

17577

分支

1576

quick start

Installation and usage

安裝

$ install --globalskills.sh

使用

安裝後，您可以透過在終端機執行以下指令來使用此技能：

skills use evaluating-llms-harness