Zurück zu Fähigkeiten

eval-harness

affaan-m
Aktualisiert 3 days ago
6 Ansichten
77,317
9,709
77,317
Auf GitHub ansehen
Entwicklungai

Über

Die eval-harness-Fähigkeit bietet einen formalen Evaluierungsrahmen für die Implementierung von eval-gesteuerter Entwicklung (EDD) in Claude-Code-Sitzungen. Sie ermöglicht Entwicklern, Pass/Fail-Kriterien zu definieren, die Zuverlässigkeit von Agenten mit Pass@k-Metriken zu messen und Regressions-Testsuiten zu erstellen. Nutzen Sie sie beim Einrichten von EDD-Workflows, beim Benchmarking der Agentenleistung oder beim Verfolgen von Regressionen bei Prompt- oder Modelländerungen.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add affaan-m/everything-claude-code -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/affaan-m/everything-claude-code
Git CloneAlternativ
git clone https://github.com/affaan-m/everything-claude-code.git ~/.claude/skills/eval-harness

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

affaan-m/everything-claude-code
Pfad: .agents/skills/eval-harness
0
ai-agentsanthropicclaudeclaude-codedeveloper-toolsllm

Verwandte Skills

qmd

Entwicklung

qmd ist ein lokales Such- und Indexierungs-CLI-Tool, das Entwicklern ermöglicht, lokale Dateien mittels Hybridsuche zu indexieren und zu durchsuchen, die BM25, Vektoreinbettungen und Neuordnung kombiniert. Es unterstützt sowohl die Kommandozeilennutzung als auch den MCP-Modus (Model Context Protocol) zur Integration mit Claude. Das Tool verwendet Ollama für Einbettungen und speichert Indizes lokal, was es ideal für die direkte Suche in Dokumentationen oder Codebasen vom Terminal aus macht.

Skill ansehen

subagent-driven-development

Entwicklung

Diese Fähigkeit führt Implementierungspläne aus, indem für jede unabhängige Aufgabe ein neuer Subagent bereitgestellt wird, mit Code-Review zwischen den Aufgaben. Sie ermöglicht schnelle Iterationen, während Qualitätssicherungsschritte durch diesen Review-Prozess gewahrt bleiben. Nutzen Sie sie, wenn Sie überwiegend unabhängige Aufgaben innerhalb derselben Sitzung bearbeiten, um kontinuierlichen Fortschritt mit integrierten Qualitätsprüfungen zu gewährleisten.

Skill ansehen

mcporter

Entwicklung

Die mcporter-Skill ermöglicht es Entwicklern, Model Context Protocol (MCP)-Server direkt aus Claude heraus zu verwalten und aufzurufen. Sie bietet Befehle, um verfügbare Server aufzulisten, deren Tools mit Argumenten aufzurufen sowie Authentifizierung und Daemon-Lebenszyklus zu handhaben. Nutzen Sie diese Skill, um MCP-Server-Funktionalität in Ihren Entwicklungs-Workflow zu integrieren und zu testen.

Skill ansehen

adk-deployment-specialist

Entwicklung

Diese Fähigkeit stellt Vertex AI ADK-Agenten über das A2A-Protokoll bereit und orchestriert sie, verwaltet die AgentCard-Erkennung, Aufgabenübermittlung und unterstützende Tools wie die Code Execution Sandbox und Memory Bank. Sie ermöglicht den Aufbau von Multi-Agenten-Systemen mit sequenziellen, parallelen oder Schleifen-Orchestrierungsmustern in Python, Java oder Go. Verwenden Sie sie, wenn Sie aufgefordert werden, ADK-Agenten bereitzustellen oder Agenten-Workflows auf Google Cloud zu orchestrieren.

Skill ansehen