SKILL·1536D0

evaluation-metrics

Name: evaluation-metrics
Author: mattnigh

mattnigh

Обновлено 1 month ago

11 просмотров

Другоеaitestingautomationdata

О программе

Этот навык Claude автоматически активируется при оценке производительности языковых моделей, обеспечивая корректные метрики и тестирование. Он обрабатывает оценочные наборы данных, вычисляет метрики, обеспечивает A/B-тестирование и реализует схемы оценки "LLM-как-эксперт". Используйте его, когда требуется структурированное отслеживание экспериментов и строгая оценка производительности ваших LLM-приложений.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add mattnigh/skills_collection -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/mattnigh/skills_collection

Git клонированиеАльтернативный

git clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metrics

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

mattnigh/skills_collection

Путь: collection/ricardoroche__ricardos-claude-code__claude__skills__evaluation-metrics__SKILL.md

FAQ

Frequently asked questions

What is the evaluation-metrics skill?

evaluation-metrics is a Claude Skill by mattnigh. Skills package instructions and resources that Claude loads on demand, so Claude can perform evaluation-metrics-related tasks without extra prompting.

How do I install evaluation-metrics?

Use the install commands on this page: add evaluation-metrics to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does evaluation-metrics belong to?

evaluation-metrics is in the ai-llm category, tagged ai, testing, automation and data.

Is evaluation-metrics free to use?

Yes. evaluation-metrics is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

model-selection

Другое

Этот навык Claude автоматически направляет выбор модели и провайдера для LLM-приложений. Он предоставляет шаблоны для оптимизации затрат, стратегии резервного переключения и маршрутизации между несколькими моделями у различных провайдеров, таких как OpenAI и Anthropic. Используйте его при внедрении сравнения моделей, отказоустойчивости провайдеров или балансировки между производительностью и затратами в вашей LLM-системе.

Просмотреть навык

agent-orchestration-patterns

Другое

Этот навык Claude автоматически направляет проектирование мультиагентных систем, обеспечивая корректное создание схем инструментов с помощью Pydantic, управление состояниями агентов и реализацию надёжной обработки ошибок. Он предоставляет шаблоны оркестрации для надёжных рабочих процессов вызова инструментов и маршрутизации агентов. Используйте его при создании сложных агентных систем для обеспечения поддерживаемого и структурированного взаимодействия.

Просмотреть навык

ai-security

Другое

Навык ai-security автоматически применяет средства защиты безопасности для приложений на основе ИИ/LLM. Он обеспечивает обнаружение инъекций в промпты, редактирование персональных данных, фильтрацию вывода и модерацию контента. Используйте этот навык при создании LLM-приложений, требующих встроенных защитных механизмов безопасности.

Просмотреть навык

model-selection

Другое

Этот навык автоматически направляет выбор модели и провайдера для LLM-приложений. Он предоставляет паттерны для оптимизации затрат, стратегии отката и маршрутизации между несколькими моделями у различных провайдеров, таких как OpenAI и Anthropic. Используйте его при внедрении сравнения моделей, отказоустойчивости провайдеров или оптимизации соотношения стоимости и производительности в вашей LLM-системе.

Просмотреть навык