evaluating-llms-harness

davila7

Aktualisiert 16 days ago

160 Ansichten

18,478

1,685

18,478

TestenEvaluationLM Evaluation HarnessBenchmarkingMMLUHumanEvalGSM8KEleutherAIModel QualityAcademic BenchmarksIndustry Standard

Über

Diese Fähigkeit führt standardisierte LLM-Evaluierungen über 60+ akademischen Benchmarks wie MMLU und GSM8K durch, unter Verwendung der branchenüblichen lm-evaluation-harness. Nutzen Sie sie für Benchmarking der Modellqualität, zum Vergleich verschiedener Modelle oder zur Verfolgung von Trainingsfortschritten mit Unterstützung für HuggingFace-, vLLM- und API-basierte Modelle. Sie bietet eine konsistente, weit verbreitete Methode zur Darstellung akademischer Ergebnisse.

Schnellinstallation

Claude Code

GitHub Repository

davila7/claude-code-templates

Pfad: cli-tool/components/skills/ai-research/evaluation-lm-evaluation-harness

anthropicanthropic-claudeclaudeclaude-code

Verwandte Skills

evaluating-code-models

langsmith-observability

phoenix-observability

Testen

Phoenix is an open-source AI observability platform for tracing, evaluating, and monitoring LLM applications. It provides detailed traces for debugging, runs evaluations on datasets, and offers real-time monitoring for production systems. Key capabilities include experiment pipelines and self-hosted observability without vendor lock-in.

Skill ansehen