evaluation-metrics
关于
This Claude Skill automatically activates during LLM performance evaluation to ensure proper metrics and testing. It handles evaluation datasets, computes metrics, facilitates A/B testing, and implements LLM-as-judge patterns. Use it when you need structured experiment tracking and rigorous performance assessment for your LLM applications.
快速安装
Claude Code
推荐npx skills add mattnigh/skills_collection -a claude-code/plugin add https://github.com/mattnigh/skills_collectiongit clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metrics在 Claude Code 中复制并粘贴此命令以安装该技能
GitHub 仓库
相关推荐技能
model-selection
其他该Skill在开发者选择LLM模型和供应商时自动触发,帮助进行模型比较、供应商选择和成本优化。它提供了故障转移模式和多模型策略等关键能力,确保AI应用的性能与可靠性。开发者可通过模型注册表模式统一管理不同供应商的模型调用,实现智能路由和成本控制。
agent-orchestration-patterns
其他该Skill为设计多智能体系统提供自动化指导,确保可靠的编排架构。它重点规范Pydantic工具模式设计、智能体状态管理和错误处理机制。适用于构建工具调用工作流和复杂智能体协作场景的开发场景。
ai-security
其他该Skill专为AI/LLM应用安全设计,自动提供防护功能。它能检测和防御提示词注入、过滤输出内容、脱敏PII数据并进行内容审核。开发者无需手动集成,适用于构建安全AI应用时的自动防护场景。
model-selection
其他该Skill在开发者选择LLM模型和提供商时自动触发,帮助实现智能的模型比较、提供商选择和成本优化。它提供了模型注册表、回退策略和多模型路由等关键能力,确保AI应用的性能与可靠性。适用于需要管理多个LLM提供商、优化成本或构建容错系统的开发场景。
