home/categories/academic/davila7-claude-code-templates-cli-tool-components-skills-ai-research-evaluation-lm-evaluation-harness-skill-md

academicresearch

evaluating-llms-harness

Name: evaluating-llms-harness
Author: davila7

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

Посмотреть исходный код academic

maintainer

davila7

Обновлено 1/20/2026

Звёзды

17577

Форки

1576

quick start

Installation and usage

Установка

$ install --globalskills.sh

Использование

После установки вы можете использовать этот skill, выполнив следующую команду в терминале:

skills use evaluating-llms-harness