SKILL·8EF28C

eval-harness

Name: eval-harness
Author: DNYoussef

DNYoussef

Aktualisiert 2 months ago

51 Ansichten

Anderegeneral

Über

Das Eval-Harness ist ein eingefrorenes Evaluierungssystem, das Selbstverbesserungszyklen für andere Skills steuert und validiert. Es nutzt unveränderliche Benchmarks, Regressionstests und menschliche Freigabeschleifen, um stillschweigende Abweichungen zu verhindern. Entwickler sollten es nutzen, um Änderungen an Prompt Forge oder ähnlichen Skills vor dem Einsatz rigoros zu testen.

Schnellinstallation

Claude Code

GitHub Repository

DNYoussef/context-cascade

Pfad: skills/tooling/eval-harness

FAQ

Frequently asked questions

What is the eval-harness skill?

eval-harness is a Claude Skill by DNYoussef. Skills package instructions and resources that Claude loads on demand, so Claude can perform eval-harness-related tasks without extra prompting.

How do I install eval-harness?

Use the install commands on this page: add eval-harness to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does eval-harness belong to?

eval-harness is in the Other category, tagged general.

Is eval-harness free to use?

Yes. eval-harness is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Verwandte Skills

llamaguard

Andere

LlamaGuard ist Metas 7-8B-Parameter-Modell zur Moderation von LLM-Eingaben und -Ausgaben in sechs Sicherheitskategorien wie Gewalt und Hassrede. Es bietet eine Genauigkeit von 94-95 % und kann mit vLLM, Hugging Face oder Amazon SageMaker eingesetzt werden. Nutzen Sie diese Skill, um Inhaltsfilterung und Sicherheitsguardrails einfach in Ihre KI-Anwendungen zu integrieren.

Skill ansehen

cost-optimization

Andere

Diese Claude Skill unterstützt Entwickler bei der Optimierung von Cloud-Kosten durch Ressourcen-Dimensionierung, Tagging-Strategien und Ausgabenanalysen. Sie bietet einen Rahmen zur Senkung von Cloud-Ausgaben und zur Implementierung von Kosten-Governance für AWS, Azure und GCP. Nutzen Sie sie, wenn Sie Infrastrukturkosten analysieren, Ressourcen richtig dimensionieren oder Budgetvorgaben einhalten müssen.

Skill ansehen

sports-betting-analyzer

Andere

Diese Claude Skill analysiert Sportwettenmärkte inklusive Handicaps, Over/Unders und Spezialwetten, indem sie historische Trends und situative Statistiken untersucht, um Wertwetten zu identifizieren. Sie liefert strukturierte Markdown-Ausgaben mit umsetzbaren Empfehlungen zu Bildungszwecken. Entwickler sollten dies für Sportwetten-Analysetools nutzen, wobei zu beachten ist, dass es nur zur Unterhaltung/Bildung konzipiert wurde.

Skill ansehen

quantizing-models-bitsandbytes

Andere

Diese Fähigkeit quantisiert LLMs auf 8-Bit- oder 4-Bit-Präzision mittels bitsandbytes und erreicht dabei eine Speicherreduzierung von 50–75 % bei minimalem Genauigkeitsverlust. Sie ist ideal für den Betrieb größerer Modelle mit begrenztem GPU-Speicher oder zur Beschleunigung von Inferenzvorgängen und unterstützt Formate wie INT8, NF4 und FP4. Die Fähigkeit integriert sich in HuggingFace Transformers und ermöglicht QLoRA-Training sowie 8-Bit-Optimierer.

Skill ansehen