Zurück zu Fähigkeiten

evaluation-metrics

mattnigh
Aktualisiert 4 days ago
7 Ansichten
22
1
22
Auf GitHub ansehen
Andereaitestingautomationdata

Über

Diese Claude-Skill wird automatisch während der Leistungsbewertung von LLMs aktiviert, um korrekte Metriken und Tests sicherzustellen. Sie verwaltet Evaluierungsdatensätze, berechnet Metriken, ermöglicht A/B-Tests und implementiert LLM-as-Judge-Muster. Nutzen Sie sie, wenn Sie strukturierte Experimentverfolgung und strenge Leistungsbewertung für Ihre LLM-Anwendungen benötigen.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add mattnigh/skills_collection -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/mattnigh/skills_collection
Git CloneAlternativ
git clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metrics

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

mattnigh/skills_collection
Pfad: collection/ricardoroche__ricardos-claude-code__claude__skills__evaluation-metrics__SKILL.md
0

Verwandte Skills

model-selection

Andere

Diese Claude Skill führt automatisch durch die Modell- und Anbieterauswahl für LLM-Anwendungen. Sie bietet Muster zur Kostenoptimierung, Fallback-Strategien und Multi-Model-Routing über Anbieter wie OpenAI und Anthropic hinweg. Nutzen Sie sie bei der Implementierung von Modellvergleichen, Anbieter-Failover oder Abwägungen zwischen Leistung und Kosten in Ihrem LLM-System.

Skill ansehen

agent-orchestration-patterns

Andere

Diese Claude Skill leitet automatisch den Entwurf von Multi-Agenten-Systemen, indem sie die korrekte Erstellung von Tool-Schemata mit Pydantic erzwingt, Agenten-Zustände verwaltet und robuste Fehlerbehandlung implementiert. Sie bietet Orchestrierungsmuster für zuverlässige Tool-Aufruf-Workflows und Agenten-Routing. Verwenden Sie sie beim Aufbau komplexer Agentensysteme, um wartbare und strukturierte Interaktionen zu gewährleisten.

Skill ansehen

ai-security

Andere

Die KI-Sicherheits-Funktion wendet automatisch Sicherheitsschutzmaßnahmen für KI/LLM-Anwendungen an. Sie bietet Erkennung von Prompt-Injection, Schwärzung von personenbezogenen Daten, Ausgabefilterung und Inhaltsmoderation. Verwenden Sie diese Funktion beim Entwickeln von LLM-Anwendungen, die integrierte Sicherheitsvorkehrungen benötigen.

Skill ansehen

rag-design-patterns

Andere

Diese Claude Skill bietet automatisch RAG-Systemdesignmuster beim Aufbau von Retrieval-Augmented-Generation-Anwendungen. Sie gibt Anleitungen zu Dokumentenchunking-Strategien, Vektordatenbankauswahl, Embedding-Verwaltung und Retrieval-Optimierungstechniken. Entwickler sollten sie bei der Implementierung von RAG-Systemen verwenden, um eine korrekte Architektur und Leistung sicherzustellen.

Skill ansehen