Zurück zu Fähigkeiten

agent-evaluation

oimiragieo
Aktualisiert 6 days ago
12 Ansichten
11
11
Auf GitHub ansehen
Andereevaluationllm-judgequalityrubricscoringai-output

Über

Diese Fähigkeit bietet ein LLM-als-Gutachter-Framework, um KI-generierte Inhalte automatisch in fünf Qualitätsdimensionen zu bewerten. Sie berechnet gewichtete Gesamtbewertungen mit Nachweis-Zitaten und eignet sich ideal zur Validierung von Agenten-Ergebnissen oder zur Implementierung von Qualitätskontrollen. Entwickler sollten sie für automatisierte, strukturierte Bewertungen von Inhalten aus QA, Code-Reviews oder anderen KI-Agenten einsetzen.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add oimiragieo/agent-studio -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/oimiragieo/agent-studio
Git CloneAlternativ
git clone https://github.com/oimiragieo/agent-studio.git ~/.claude/skills/agent-evaluation

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

oimiragieo/agent-studio
Pfad: .claude/skills/agent-evaluation
0

Verwandte Skills

agenta

Andere

Agenta ist eine selbst gehostete Plattform zur Verwaltung und Bewertung von LLM-Prompts. Sie ermöglicht Entwicklern, Prompts zu versionieren, A/B-Tests durchzuführen und Experimente mit Evaluationsmetriken zu verfolgen. Nutzen Sie sie, um Prompt-Änderungen systematisch und sicher zu testen und bereitzustellen.

Skill ansehen

api-researcher

Dokumentation

Die api-researcher-Fähigkeit unterstützt Entwickler bei der Suche, Bewertung und Analyse von APIs für die Integration. Sie bietet Funktionen zum Auffinden geeigneter APIs, zur Einschätzung der Dokumentationsqualität und zur Bewertung der Integrationskomplexität wie Authentifizierung und Rate-Limits. Nutzen Sie diese Fähigkeit, wenn Sie API-Optionen recherchieren oder technische Implementierungsdetails einer API analysieren müssen.

Skill ansehen

stockfish-analyzer

Andere

Diese Claude Skill analysiert Schachpositionen mithilfe der Stockfish-Engine, wenn FEN-Strings bereitgestellt werden. Sie bietet Empfehlungen für den besten Zug, Positionsbewertungen und alternative Top-Züge basierend auf der Benutzerabsicht. Entwickler können sie für Schachanalysen integrieren, die maschinenbasierte Zugvorschläge und Spielzustandsbewertungen erfordern.

Skill ansehen

skills-eval

Andere

Die Skills-Eval-Fähigkeit überprüft und verbessert die Qualität von Claude-Fähigkeiten durch automatisierte Evaluierungstools. Sie ist für Qualitätssicherung vor Produktionsbereitstellung konzipiert und analysiert Leistungskennzahlen, Compliance und Token-Verbrauch. Entwickler sollten sie für die Überprüfung bestehender Fähigkeiten nutzen, nicht für die Erstellung neuer Fähigkeiten.

Skill ansehen