MCP HubMCP Hub
Вернуться к навыкам

evaluation-metrics

mattnigh
Обновлено 4 days ago
5 просмотров
22
1
22
Посмотреть на GitHub
Другоеaitestingautomationdata

О программе

Этот навык Claude автоматически активируется при оценке производительности языковых моделей, обеспечивая корректные метрики и тестирование. Он обрабатывает оценочные наборы данных, вычисляет метрики, обеспечивает A/B-тестирование и реализует схемы оценки "LLM-как-эксперт". Используйте его, когда требуется структурированное отслеживание экспериментов и строгая оценка производительности ваших LLM-приложений.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add mattnigh/skills_collection -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/mattnigh/skills_collection
Git клонированиеАльтернативный
git clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metrics

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

mattnigh/skills_collection
Путь: collection/ricardoroche__ricardos-claude-code__claude__skills__evaluation-metrics__SKILL.md
0

Похожие навыки

model-selection

Другое

Этот навык Claude автоматически направляет выбор модели и провайдера для LLM-приложений. Он предоставляет шаблоны для оптимизации затрат, стратегии резервного переключения и маршрутизации между несколькими моделями у различных провайдеров, таких как OpenAI и Anthropic. Используйте его при внедрении сравнения моделей, отказоустойчивости провайдеров или балансировки между производительностью и затратами в вашей LLM-системе.

Просмотреть навык

agent-orchestration-patterns

Другое

Этот навык Claude автоматически направляет проектирование мультиагентных систем, обеспечивая корректное создание схем инструментов с помощью Pydantic, управление состояниями агентов и реализацию надёжной обработки ошибок. Он предоставляет шаблоны оркестрации для надёжных рабочих процессов вызова инструментов и маршрутизации агентов. Используйте его при создании сложных агентных систем для обеспечения поддерживаемого и структурированного взаимодействия.

Просмотреть навык

ai-security

Другое

Навык ai-security автоматически применяет средства защиты безопасности для приложений на основе ИИ/LLM. Он обеспечивает обнаружение инъекций в промпты, редактирование персональных данных, фильтрацию вывода и модерацию контента. Используйте этот навык при создании LLM-приложений, требующих встроенных защитных механизмов безопасности.

Просмотреть навык

rag-design-patterns

Другое

Этот навык Claude автоматически предоставляет паттерны проектирования RAG-систем при создании приложений с retrieval-augmented generation. Он предлагает рекомендации по стратегиям чанкирования документов, выбору векторных баз данных, управлению эмбеддингами и методам оптимизации поиска. Разработчикам следует использовать его при внедрении RAG-систем для обеспечения корректной архитектуры и производительности.

Просмотреть навык