SKILL·535535

evaluating-llms-harness

Name: evaluating-llms-harness
Author: zechenzhangAGI

zechenzhangAGI

Обновлено 2 months ago

1722 просмотров

Тестированиеaitestingapi

О программе

Этот навык Claude запускает lm-evaluation-harness для тестирования LLM на более чем 60 стандартизированных академических задачах, таких как MMLU и GSM8K. Он предназначен для разработчиков, чтобы сравнивать качество моделей, отслеживать прогресс обучения или сообщать академические результаты. Инструмент поддерживает различные бэкенды, включая модели HuggingFace и vLLM.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs

Git клонированиеАльтернативный

git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/evaluating-llms-harness

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

zechenzhangAGI/AI-research-SKILLs

Путь: 11-evaluation/lm-evaluation-harness

aiai-researchclaudeclaude-codeclaude-skillscodex

FAQ

Frequently asked questions

What is the evaluating-llms-harness skill?

evaluating-llms-harness is a Claude Skill by zechenzhangAGI. Skills package instructions and resources that Claude loads on demand, so Claude can perform evaluating-llms-harness-related tasks without extra prompting.

How do I install evaluating-llms-harness?

Use the install commands on this page: add evaluating-llms-harness to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does evaluating-llms-harness belong to?

evaluating-llms-harness is in the Testing category, tagged ai, testing and api.

Is evaluating-llms-harness free to use?

Yes. evaluating-llms-harness is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

cloudflare-cron-triggers

Тестирование

Этот навык предоставляет обширные знания по реализации Cloudflare Cron Triggers для планирования запуска Workers с помощью cron-выражений. Он охватывает настройку периодических задач, заданий технического обслуживания и автоматизированных рабочих процессов, а также решение распространенных проблем, таких как неверные cron-выражения и ошибки часовых поясов. Разработчики могут использовать его для настройки планировщиков обработчиков, тестирования cron-триггеров и интеграции с Workflows и Green Compute.

Просмотреть навык

webapp-testing

Тестирование

Этот навык Claude предоставляет инструментарий на базе Playwright для тестирования локальных веб-приложений с помощью Python-скриптов. Он позволяет проводить проверку фронтенда, отладку интерфейса, создание скриншотов и просмотр логов, одновременно управляя жизненным циклом сервера. Используйте его для задач автоматизации браузера, но запускайте скрипты напрямую, вместо чтения их исходного кода, чтобы избежать загрязнения контекста.

Просмотреть навык

finishing-a-development-branch

Тестирование

Этот навык помогает разработчикам завершать готовую работу, проверяя прохождение тестов и предлагая структурированные варианты интеграции. Он направляет рабочий процесс по слиянию, созданию пул-реквестов или очистке веток после завершения реализации. Используйте его, когда ваш код готов и протестирован, чтобы систематически завершать процесс разработки.

Просмотреть навык

npm-trusted-publishing

Тестирование

Этот навык Claude помогает разработчикам настроить безопасную публикацию в npm из GitHub Actions с использованием доверенной публикации OIDC вместо долгоживущих токенов. Он предоставляет конфигурацию для аттестаций происхождения и поддерживает рабочие процессы публикации в монорепозиториях. Используйте его при переходе с NPM_TOKEN или при настройке доверенной публикации с повышенной безопасностью.

Просмотреть навык