agent-evaluation
Über
Diese Fähigkeit bietet ein LLM-als-Gutachter-Framework, um KI-generierte Inhalte automatisch in fünf Qualitätsdimensionen zu bewerten. Sie berechnet gewichtete Gesamtbewertungen mit Nachweis-Zitaten und eignet sich ideal zur Validierung von Agenten-Ergebnissen oder zur Implementierung von Qualitätskontrollen. Entwickler sollten sie für automatisierte, strukturierte Bewertungen von Inhalten aus QA, Code-Reviews oder anderen KI-Agenten einsetzen.
Schnellinstallation
Claude Code
Empfohlennpx skills add oimiragieo/agent-studio -a claude-code/plugin add https://github.com/oimiragieo/agent-studiogit clone https://github.com/oimiragieo/agent-studio.git ~/.claude/skills/agent-evaluationKopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren
GitHub Repository
Verwandte Skills
agenta
AndereAgenta ist eine selbst gehostete Plattform zur Verwaltung und Bewertung von LLM-Prompts. Sie ermöglicht Entwicklern, Prompts zu versionieren, A/B-Tests durchzuführen und Experimente mit Evaluationsmetriken zu verfolgen. Nutzen Sie sie, um Prompt-Änderungen systematisch und sicher zu testen und bereitzustellen.
api-researcher
DokumentationDie api-researcher-Fähigkeit unterstützt Entwickler bei der Suche, Bewertung und Analyse von APIs für die Integration. Sie bietet Funktionen zum Auffinden geeigneter APIs, zur Einschätzung der Dokumentationsqualität und zur Bewertung der Integrationskomplexität wie Authentifizierung und Rate-Limits. Nutzen Sie diese Fähigkeit, wenn Sie API-Optionen recherchieren oder technische Implementierungsdetails einer API analysieren müssen.
stockfish-analyzer
AndereDiese Claude Skill analysiert Schachpositionen mithilfe der Stockfish-Engine, wenn FEN-Strings bereitgestellt werden. Sie bietet Empfehlungen für den besten Zug, Positionsbewertungen und alternative Top-Züge basierend auf der Benutzerabsicht. Entwickler können sie für Schachanalysen integrieren, die maschinenbasierte Zugvorschläge und Spielzustandsbewertungen erfordern.
skills-eval
AndereDie Skills-Eval-Fähigkeit überprüft und verbessert die Qualität von Claude-Fähigkeiten durch automatisierte Evaluierungstools. Sie ist für Qualitätssicherung vor Produktionsbereitstellung konzipiert und analysiert Leistungskennzahlen, Compliance und Token-Verbrauch. Entwickler sollten sie für die Überprüfung bestehender Fähigkeiten nutzen, nicht für die Erstellung neuer Fähigkeiten.
