harness:health
Acerca de
La habilidad harness:health realiza comprobaciones automatizadas de calidad en conjuntos de datos de evaluación, analizando tamaño, distribución de dificultad, cobertura y divisiones. Corrige automáticamente los problemas identificados y está diseñada para usarse antes de ejecutar evoluciones o al diagnosticar problemas de evaluación. Esta herramienta ayuda a los desarrolladores a mantener la integridad de los conjuntos de datos mediante sus capacidades de diagnóstico y autocorrección.
Instalación rápida
Claude Code
Recomendadonpx skills add raphaelchristi/harness-evolver -a claude-code/plugin add https://github.com/raphaelchristi/harness-evolvergit clone https://github.com/raphaelchristi/harness-evolver.git ~/.claude/skills/harness:healthCopia y pega este comando en Claude Code para instalar esta habilidad
Documentación
/harness:health
Check eval dataset quality and auto-correct issues. Can be run independently or is invoked by /harness:evolve before the iteration loop.
Prerequisites
.evolver.json must exist. If not, tell user to run /harness:setup.
Resolve Tool Path and Python
TOOLS="${EVOLVER_TOOLS:-$([ -d ".evolver/tools" ] && echo ".evolver/tools" || echo "$HOME/.evolver/tools")}"
EVOLVER_PY="${EVOLVER_PY:-$([ -f "$HOME/.evolver/venv/bin/python" ] && echo "$HOME/.evolver/venv/bin/python" || echo "python3")}"
1. Run Health Diagnostic
$EVOLVER_PY $TOOLS/dataset_health.py \
--config .evolver.json \
--production-seed production_seed.json \
--output health_report.json 2>/dev/null
Print summary:
python3 -c "
import json, os
if os.path.exists('health_report.json'):
r = json.load(open('health_report.json'))
print(f'Dataset Health: {r[\"health_score\"]}/10 ({r[\"example_count\"]} examples)')
for issue in r.get('issues', []):
print(f' [{issue[\"severity\"]}] {issue[\"message\"]}')
if not r.get('issues'):
print(' No issues found.')
"
2. Auto-Correct Issues
If health_report.json has corrections, apply them automatically:
CORRECTIONS=$(python3 -c "
import json, os
if os.path.exists('health_report.json'):
r = json.load(open('health_report.json'))
for c in r.get('corrections', []):
print(c['action'])
" 2>/dev/null)
For each correction:
If create_splits: Assign 70/30 train/held_out splits:
$EVOLVER_PY -c "
from langsmith import Client
import json, random
client = Client()
config = json.load(open('.evolver.json'))
examples = list(client.list_examples(dataset_name=config['dataset']))
random.shuffle(examples)
sp = int(len(examples) * 0.7)
for ex in examples[:sp]:
client.update_example(ex.id, split='train')
for ex in examples[sp:]:
client.update_example(ex.id, split='held_out')
print(f'Assigned splits: {sp} train, {len(examples)-sp} held_out')
"
If generate_hard: Spawn testgen agent to generate hard examples:
Agent(
subagent_type: "harness-testgen",
description: "Generate hard examples to rebalance dataset",
prompt: "The dataset is skewed toward easy examples. Generate {count} HARD examples that the current agent is likely to fail on. Focus on edge cases, adversarial inputs, and complex multi-step queries. Read .evolver.json and production_seed.json for context."
)
If fill_coverage: Spawn testgen agent for missing categories:
Agent(
subagent_type: "harness-testgen",
description: "Generate examples for missing categories",
prompt: "The dataset is missing these production categories: {categories}. Generate 5 examples per missing category. Read .evolver.json and production_seed.json for context."
)
If retire_dead: Move dead examples to retired split:
$EVOLVER_PY -c "
from langsmith import Client
import json
client = Client()
report = json.load(open('health_report.json'))
dead_ids = report.get('dead_examples', {}).get('ids', [])
config = json.load(open('.evolver.json'))
examples = {str(e.id): e for e in client.list_examples(dataset_name=config['dataset'])}
retired = 0
for eid in dead_ids:
if eid in examples:
client.update_example(examples[eid].id, split='retired')
retired += 1
print(f'Retired {retired} dead examples')
"
After corrections, log what was done.
3. Report
Print final health status. If critical issues remain that couldn't be auto-corrected, warn the user.
Repositorio GitHub
Habilidades relacionadas
llamaguard
OtroLlamaGuard es el modelo de Meta de 7-8B parámetros para moderar las entradas y salidas de LLM en seis categorías de seguridad como violencia y discurso de odio. Ofrece una precisión del 94-95% y puede implementarse usando vLLM, Hugging Face o Amazon SageMaker. Utiliza esta skill para integrar fácilmente filtrado de contenido y barreras de seguridad en tus aplicaciones de IA.
cost-optimization
OtroEsta Skill de Claude ayuda a los desarrolladores a optimizar los costes en la nube mediante el ajuste de tamaño de recursos, estrategias de etiquetado y análisis de gastos. Proporciona un marco para reducir los gastos en la nube e implementar una gobernanza de costes en AWS, Azure y GCP. Úsala cuando necesites analizar los costes de infraestructura, ajustar el tamaño de los recursos o cumplir con restricciones presupuestarias.
quantizing-models-bitsandbytes
OtroEsta habilidad cuantiza LLMs a precisión de 8 o 4 bits utilizando bitsandbytes, logrando una reducción de memoria del 50-75% con pérdida mínima de precisión. Es ideal para ejecutar modelos más grandes en memoria GPU limitada o para acelerar la inferencia, admitiendo formatos como INT8, NF4 y FP4. La habilidad se integra con HuggingFace Transformers y permite entrenamiento QLoRA y optimizadores de 8 bits.
dispatching-parallel-agents
OtroEsta Skill de Claude despliega múltiples agentes para investigar y solucionar 3 o más problemas independientes de forma concurrente. Está diseñada para escenarios que involucran fallos no relacionados que pueden resolverse sin estado compartido o dependencias. Su capacidad principal es la resolución paralela de problemas, asignando un agente por cada dominio problemático independiente para maximizar la eficiencia.
