agent-evaluation
Acerca de
Esta habilidad proporciona pruebas integrales y evaluación comparativa para agentes de LLM, incluyendo pruebas de comportamiento, evaluación de capacidades y métricas de fiabilidad. Ayuda a los desarrolladores a evaluar agentes en escenarios realistas donde los puntos de referencia tradicionales a menudo fallan, detectando problemas antes del despliegue en producción. Úsela cuando necesite evaluar el rendimiento de agentes más allá de simples métricas de precisión, centrándose en la fiabilidad en el mundo real y las pruebas de regresión.
Instalación rápida
Claude Code
Recomendadonpx skills add sickn33/antigravity-awesome-skills -a claude-code/plugin add https://github.com/sickn33/antigravity-awesome-skillsgit clone https://github.com/sickn33/antigravity-awesome-skills.git ~/.claude/skills/agent-evaluationCopia y pega este comando en Claude Code para instalar esta habilidad
Repositorio GitHub
Habilidades relacionadas
evaluating-llms-harness
PruebasEsta Skill de Claude ejecuta el benchmark lm-evaluation-harness para evaluar modelos de lenguaje en más de 60 tareas académicas estandarizadas como MMLU y GSM8K. Está diseñada para que los desarrolladores comparen la calidad de los modelos, realicen seguimiento del progreso del entrenamiento o reporten resultados académicos. La herramienta admite varios backends, incluidos modelos de HuggingFace y vLLM.
cloudflare-cron-triggers
PruebasEsta habilidad proporciona conocimiento integral para implementar Cron Triggers de Cloudflare y programar Workers mediante expresiones cron. Cubre la configuración de tareas periódicas, trabajos de mantenimiento y flujos de trabajo automatizados, manejando problemas comunes como expresiones cron inválidas y inconvenientes de zonas horarias. Los desarrolladores pueden utilizarla para configurar manejadores programados, probar activadores cron e integrar con Workflows y Green Compute.
webapp-testing
PruebasEsta habilidad de Claude proporciona un kit de herramientas basado en Playwright para probar aplicaciones web locales mediante scripts de Python. Permite verificación de frontend, depuración de interfaz de usuario, captura de pantallas y visualización de registros, mientras gestiona los ciclos de vida del servidor. Úsela para tareas de automatización de navegadores, pero ejecute los scripts directamente en lugar de leer su código fuente para evitar contaminación del contexto.
finishing-a-development-branch
PruebasEsta habilidad ayuda a los desarrolladores a completar el trabajo terminado verificando que las pruebas pasen y luego presentando opciones estructuradas de integración. Guía el flujo de trabajo para fusionar, crear PRs o limpiar ramas después de que se completa la implementación. Úsala cuando tu código esté listo y probado para finalizar sistemáticamente el proceso de desarrollo.
