evaluating-code-models

majiayu000

Aktualisiert 16 days ago

26 Ansichten

MetaEvaluationCode GenerationHumanEvalMBPPMultiPL-EPass@kBigCodeBenchmarkingCode Models

Über

Diese Fähigkeit führt standardisierte Code-Generierungs-Benchmarks wie HumanEval und MBPP durch, um die Modellleistung anhand von Pass@k-Metriken zu bewerten. Es ist das branchenübliche Tool des BigCode-Projekts zum Vergleichen von Programmierfähigkeiten, Testen der Mehrsprachenunterstützung und Messen der Codequalität. Verwenden Sie es beim Benchmarking von Modellen, beim Vergleichen ihrer Fähigkeiten oder zum Reproduzieren von HuggingFace-Leaderboard-Auswertungen.

Schnellinstallation

Claude Code

GitHub Repository

majiayu000/claude-skill-registry

Pfad: skills/bigcode-evaluation-harness

Verwandte Skills

evaluating-code-models

langsmith-observability

phoenix-observability

Testen

Phoenix is an open-source AI observability platform for tracing, evaluating, and monitoring LLM applications. It provides detailed traces for debugging, runs evaluations on datasets, and offers real-time monitoring for production systems. Key capabilities include experiment pipelines and self-hosted observability without vendor lock-in.

Skill ansehen

evaluating-llms-harness

Testen

This skill runs standardized LLM evaluations across 60+ academic benchmarks like MMLU and GSM8K using the industry-standard lm-evaluation-harness. Use it for benchmarking model quality, comparing different models, or tracking training progress with support for HuggingFace, vLLM, and API-based models. It provides a consistent, widely-adopted method for reporting academic results.

Skill ansehen