SKILL·2596F0

eval-harness

Name: eval-harness
Author: affaan-m

affaan-m

Aktualisiert 1 month ago

10 Ansichten

77,317

9,709

77,317

Auf GitHub ansehen

Entwicklungai

Über

Die eval-harness-Fähigkeit bietet einen formalen Evaluierungsrahmen für die Implementierung von eval-gesteuerter Entwicklung (EDD) in Claude-Code-Sitzungen. Sie ermöglicht Entwicklern, Pass/Fail-Kriterien zu definieren, die Zuverlässigkeit von Agenten mit Pass@k-Metriken zu messen und Regressions-Testsuiten zu erstellen. Nutzen Sie sie beim Einrichten von EDD-Workflows, beim Benchmarking der Agentenleistung oder beim Verfolgen von Regressionen bei Prompt- oder Modelländerungen.

Schnellinstallation

Claude Code

GitHub Repository

affaan-m/everything-claude-code

Pfad: .agents/skills/eval-harness

ai-agentsanthropicclaudeclaude-codedeveloper-toolsllm

FAQ

Frequently asked questions

What is the eval-harness skill?

eval-harness is a Claude Skill by affaan-m. Skills package instructions and resources that Claude loads on demand, so Claude can perform eval-harness-related tasks without extra prompting.

How do I install eval-harness?

Use the install commands on this page: add eval-harness to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does eval-harness belong to?

eval-harness is in the Development category, tagged ai.

Is eval-harness free to use?

Yes. eval-harness is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Verwandte Skills

qmd

Entwicklung

qmd ist ein lokales Such- und Indexierungs-CLI-Tool, das Entwicklern ermöglicht, lokale Dateien mittels Hybridsuche zu indexieren und zu durchsuchen, die BM25, Vektoreinbettungen und Neuordnung kombiniert. Es unterstützt sowohl die Kommandozeilennutzung als auch den MCP-Modus (Model Context Protocol) zur Integration mit Claude. Das Tool verwendet Ollama für Einbettungen und speichert Indizes lokal, was es ideal für die direkte Suche in Dokumentationen oder Codebasen vom Terminal aus macht.

Skill ansehen

subagent-driven-development

Entwicklung

Diese Fähigkeit führt Implementierungspläne aus, indem für jede unabhängige Aufgabe ein neuer Subagent bereitgestellt wird, mit Code-Review zwischen den Aufgaben. Sie ermöglicht schnelle Iterationen, während Qualitätssicherungsschritte durch diesen Review-Prozess gewahrt bleiben. Nutzen Sie sie, wenn Sie überwiegend unabhängige Aufgaben innerhalb derselben Sitzung bearbeiten, um kontinuierlichen Fortschritt mit integrierten Qualitätsprüfungen zu gewährleisten.

Skill ansehen

mcporter

Entwicklung

Die mcporter-Skill ermöglicht es Entwicklern, Model Context Protocol (MCP)-Server direkt aus Claude heraus zu verwalten und aufzurufen. Sie bietet Befehle, um verfügbare Server aufzulisten, deren Tools mit Argumenten aufzurufen sowie Authentifizierung und Daemon-Lebenszyklus zu handhaben. Nutzen Sie diese Skill, um MCP-Server-Funktionalität in Ihren Entwicklungs-Workflow zu integrieren und zu testen.

Skill ansehen

adk-deployment-specialist

Entwicklung

Diese Fähigkeit stellt Vertex AI ADK-Agenten über das A2A-Protokoll bereit und orchestriert sie, verwaltet die AgentCard-Erkennung, Aufgabenübermittlung und unterstützende Tools wie die Code Execution Sandbox und Memory Bank. Sie ermöglicht den Aufbau von Multi-Agenten-Systemen mit sequenziellen, parallelen oder Schleifen-Orchestrierungsmustern in Python, Java oder Go. Verwenden Sie sie, wenn Sie aufgefordert werden, ADK-Agenten bereitzustellen oder Agenten-Workflows auf Google Cloud zu orchestrieren.

Skill ansehen