harness:certify

raphaelchristi

Mis à jour 5 days ago

Documentationgeneral

À propos

Cette compétence vérifie la stabilité des scores d'un agent évolué en exécutant son évaluation trois fois et en rapportant la moyenne et l'écart-type. Elle est utilisée lorsque les développeurs doivent confirmer que les mesures de performance sont fiables et ne sont pas dues à une variance aléatoire. La compétence lit automatiquement la configuration du projet et exécute les évaluations sur le meilleur code actuel.

Installation rapide

Claude Code

Recommandé

Principal

npx skills add raphaelchristi/harness-evolver -a claude-code

Commande PluginAlternatif

/plugin add https://github.com/raphaelchristi/harness-evolver

Git CloneAlternatif

git clone https://github.com/raphaelchristi/harness-evolver.git ~/.claude/skills/harness:certify

Copiez et collez cette commande dans Claude Code pour installer cette compétence

Documentation

/harness:certify

Verify score stability by running evaluation multiple times and reporting statistical confidence.

Resolve Tool Path

TOOLS="${EVOLVER_TOOLS:-$([ -d ".evolver/tools" ] && echo ".evolver/tools" || echo "$HOME/.evolver/tools")}"
EVOLVER_PY="${EVOLVER_PY:-$([ -f "$HOME/.evolver/venv/bin/python" ] && echo "$HOME/.evolver/venv/bin/python" || echo "python3")}"

What To Do

Read .evolver.json to get the best experiment and dataset.

Run evaluation 3 times on the current code (not a worktree — the best code is already merged):

for i in 1 2 3; do
    $EVOLVER_PY $TOOLS/run_eval.py \
        --config .evolver.json \
        --worktree-path "." \
        --experiment-prefix "certify-run-$i"
done

After all 3 runs complete, read results and compute statistics:

$EVOLVER_PY $TOOLS/read_results.py --experiments "certify-run-1-{suffix},certify-run-2-{suffix},certify-run-3-{suffix}" --config .evolver.json --format summary

Calculate mean and standard deviation from the 3 combined_scores.

Report

CERTIFICATION REPORT
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Runs:  3
Mean:  {mean:.3f}
Std:   {std:.3f}
Range: {min:.3f} — {max:.3f}

Verdict: {STABLE|UNSTABLE}

STABLE (std < 0.05): Score is reliable. The agent performs consistently.

MARGINAL (0.05 <= std < 0.10): Score varies moderately. Consider adding rubrics to reduce judge variance.

UNSTABLE (std >= 0.10): Score is unreliable. The LLM judge interprets criteria differently across runs. Add few-shot examples or tighter rubrics.

After Certification

If STABLE: suggest /harness:deploy to finalize. If UNSTABLE: suggest adding rubrics to dataset examples, or running /harness:evolve with heavy mode for more thorough evaluation.

Dépôt GitHub

raphaelchristi/harness-evolver

Chemin: skills/certify

agent-evolutionclaude-code-plugincodex-skillsharness-engineeringmeta-harness

Compétences associées

railway-docs

Documentation

Cette compétence récupère la documentation actuelle de Railway pour répondre aux questions sur les fonctionnalités, le fonctionnement ou des URL spécifiques de la documentation. Elle garantit que les développeurs reçoivent des informations précises et à jour directement depuis les sources officielles de Railway. Utilisez-la lorsque les utilisateurs demandent comment fonctionne Railway ou font référence à la documentation de Railway.

Voir la compétence

n8n-code-python

Documentation

Cette compétence Claude offre un accompagnement expert pour écrire du code Python dans les nœuds Code de n8n, en particulier pour utiliser la bibliothèque standard de Python et travailler avec la syntaxe spéciale de n8n comme `_input`, `_json` et `_node`. Elle aide les développeurs à comprendre les limites de Python dans n8n et recommande d'utiliser JavaScript pour la plupart des workflows, tout en proposant des solutions Python pour des besoins spécifiques de transformation de données.

Voir la compétence

archon

Documentation

La compétence Archon offre une recherche sémantique alimentée par RAG et une gestion de projet via une API REST. Utilisez-la pour interroger la documentation, gérer des projets/tâches hiérarchiques et effectuer de la recherche de connaissances avec des capacités de téléchargement de documents. Priorisez toujours Archon en premier lors de la recherche dans une documentation externe avant d'utiliser d'autres sources.

Voir la compétence

n8n-code-javascript

Documentation

Cette compétence Claude fournit des conseils d'expert pour écrire du code JavaScript dans les nœuds Code d'n8n. Elle couvre la syntaxe essentielle spécifique à n8n comme les variables `$input`/`$json`, les assistants HTTP et la gestion des DateTime, tout en résolvant les erreurs courantes. Utilisez-la lors du développement de workflows n8n nécessitant un traitement JavaScript personnalisé dans les nœuds Code.

Voir la compétence