SKILL·1536D0

evaluation-metrics

Name: evaluation-metrics
Author: mattnigh

mattnigh

Actualizado 1 month ago

11 vistas

Otroaitestingautomationdata

Acerca de

Esta Habilidad de Claude se activa automáticamente durante la evaluación del rendimiento de un LLM para garantizar las métricas y pruebas adecuadas. Maneja conjuntos de datos de evaluación, calcula métricas, facilita pruebas A/B e implementa patrones de LLM-como-juez. Úsela cuando necesite un seguimiento estructurado de experimentos y una evaluación rigurosa del rendimiento para sus aplicaciones de LLM.

Instalación rápida

Claude Code

Recomendado

Principal

npx skills add mattnigh/skills_collection -a claude-code

Comando PluginAlternativo

/plugin add https://github.com/mattnigh/skills_collection

Git CloneAlternativo

git clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metrics

Copia y pega este comando en Claude Code para instalar esta habilidad

Repositorio GitHub

mattnigh/skills_collection

Ruta: collection/ricardoroche__ricardos-claude-code__claude__skills__evaluation-metrics__SKILL.md

FAQ

Frequently asked questions

What is the evaluation-metrics skill?

evaluation-metrics is a Claude Skill by mattnigh. Skills package instructions and resources that Claude loads on demand, so Claude can perform evaluation-metrics-related tasks without extra prompting.

How do I install evaluation-metrics?

Use the install commands on this page: add evaluation-metrics to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does evaluation-metrics belong to?

evaluation-metrics is in the ai-llm category, tagged ai, testing, automation and data.

Is evaluation-metrics free to use?

Yes. evaluation-metrics is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Habilidades relacionadas

model-selection

Otro

Esta Habilidad de Claude guía automáticamente la selección de modelos y proveedores para aplicaciones de LLM. Ofrece patrones para optimización de costos, estrategias de respaldo y enrutamiento multi-modelo entre proveedores como OpenAI y Anthropic. Úsala al implementar comparación de modelos, conmutación por error de proveedores o compensaciones entre rendimiento y costo en tu sistema de LLM.

Ver habilidad

agent-orchestration-patterns

Otro

Esta Habilidad de Claude guía automáticamente el diseño de sistemas multiagente al hacer cumplir la creación adecuada de esquemas de herramientas con Pydantic, gestionar los estados de los agentes e implementar un manejo robusto de errores. Proporciona patrones de orquestación para flujos de trabajo confiables de llamadas a herramientas y enrutamiento de agentes. Úsela al construir sistemas de agentes complejos para garantizar interacciones mantenibles y estructuradas.

Ver habilidad

ai-security

Otro

La habilidad de seguridad de IA aplica automáticamente protecciones de seguridad para aplicaciones de IA/LLM. Proporciona detección de inyección de prompts, ofuscación de PII, filtrado de salidas y moderación de contenido. Utilice esta habilidad al construir aplicaciones LLM que requieran barreras de seguridad integradas.

Ver habilidad

model-selection

Otro

Esta habilidad guía automáticamente la selección de modelos y proveedores para aplicaciones de LLM. Ofrece patrones para optimización de costos, estrategias de respaldo y enrutamiento multimodelo entre proveedores como OpenAI y Anthropic. Úsala al implementar comparación de modelos, conmutación por error de proveedores o optimización de costo-rendimiento en tu sistema de LLM.

Ver habilidad