evaluation-metrics
О программе
Этот навык Claude автоматически активируется при оценке производительности языковых моделей, обеспечивая корректные метрики и тестирование. Он обрабатывает оценочные наборы данных, вычисляет метрики, обеспечивает A/B-тестирование и реализует схемы оценки "LLM-как-эксперт". Используйте его, когда требуется структурированное отслеживание экспериментов и строгая оценка производительности ваших LLM-приложений.
Быстрая установка
Claude Code
Рекомендуетсяnpx skills add mattnigh/skills_collection -a claude-code/plugin add https://github.com/mattnigh/skills_collectiongit clone https://github.com/mattnigh/skills_collection.git ~/.claude/skills/evaluation-metricsСкопируйте и вставьте эту команду в Claude Code для установки этого навыка
GitHub репозиторий
Похожие навыки
model-selection
ДругоеЭтот навык Claude автоматически направляет выбор модели и провайдера для LLM-приложений. Он предоставляет шаблоны для оптимизации затрат, стратегии резервного переключения и маршрутизации между несколькими моделями у различных провайдеров, таких как OpenAI и Anthropic. Используйте его при внедрении сравнения моделей, отказоустойчивости провайдеров или балансировки между производительностью и затратами в вашей LLM-системе.
agent-orchestration-patterns
ДругоеЭтот навык Claude автоматически направляет проектирование мультиагентных систем, обеспечивая корректное создание схем инструментов с помощью Pydantic, управление состояниями агентов и реализацию надёжной обработки ошибок. Он предоставляет шаблоны оркестрации для надёжных рабочих процессов вызова инструментов и маршрутизации агентов. Используйте его при создании сложных агентных систем для обеспечения поддерживаемого и структурированного взаимодействия.
ai-security
ДругоеНавык ai-security автоматически применяет средства защиты безопасности для приложений на основе ИИ/LLM. Он обеспечивает обнаружение инъекций в промпты, редактирование персональных данных, фильтрацию вывода и модерацию контента. Используйте этот навык при создании LLM-приложений, требующих встроенных защитных механизмов безопасности.
rag-design-patterns
ДругоеЭтот навык Claude автоматически предоставляет паттерны проектирования RAG-систем при создании приложений с retrieval-augmented generation. Он предлагает рекомендации по стратегиям чанкирования документов, выбору векторных баз данных, управлению эмбеддингами и методам оптимизации поиска. Разработчикам следует использовать его при внедрении RAG-систем для обеспечения корректной архитектуры и производительности.
