home/categories/debugging/orchestra-research-ai-research-skills-11-evaluation-lm-evaluation-harness-skill-md

debuggingtools

evaluating-llms-harness

Name: evaluating-llms-harness
Author: Orchestra-Research

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

소스 보기 debugging

maintainer

Orchestra-Research

업데이트됨 11/20/2025

스타

6563

포크

515

quick start

Installation and usage

설치

$ install --globalskills.sh

사용법

설치 후 터미널에서 다음 명령을 실행하여 이 스킬을 사용할 수 있습니다:

skills use evaluating-llms-harness