MCP HubMCP Hub
Retour aux compétences

evaluating-llms-harness

zechenzhangAGI
Mis à jour 15 days ago
1640 vues
62
2
62
Voir sur GitHub
Testsaitestingapi

À propos

Cette compétence Claude exécute le lm-evaluation-harness pour évaluer les modèles de langage sur plus de 60 tâches académiques standardisées telles que MMLU et GSM8K. Elle est conçue pour permettre aux développeurs de comparer la qualité des modèles, de suivre les progrès de l'entraînement ou de rapporter des résultats académiques. L'outil prend en charge différents backends, incluant les modèles HuggingFace et vLLM.

Installation rapide

Claude Code

Recommandé
Principal
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
Commande PluginAlternatif
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git CloneAlternatif
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/evaluating-llms-harness

Copiez et collez cette commande dans Claude Code pour installer cette compétence

Dépôt GitHub

zechenzhangAGI/AI-research-SKILLs
Chemin: 11-evaluation/lm-evaluation-harness
0
aiai-researchclaudeclaude-codeclaude-skillscodex

Compétences associées

content-collections

Méta

This skill provides a production-tested setup for Content Collections, a TypeScript-first tool that transforms Markdown/MDX files into type-safe data collections with Zod validation. Use it when building blogs, documentation sites, or content-heavy Vite + React applications to ensure type safety and automatic content validation. It covers everything from Vite plugin configuration and MDX compilation to deployment optimization and schema validation.

Voir la compétence

polymarket

Méta

This skill enables developers to build applications with the Polymarket prediction markets platform, including API integration for trading and market data. It also provides real-time data streaming via WebSocket to monitor live trades and market activity. Use it for implementing trading strategies or creating tools that process live market updates.

Voir la compétence

creating-opencode-plugins

Méta

This skill helps developers create OpenCode plugins that hook into 25+ event types like commands, files, and LSP operations. It provides the plugin structure, event API specifications, and implementation patterns for JavaScript/TypeScript modules. Use it when you need to intercept, monitor, or extend the OpenCode AI assistant's lifecycle with custom event-driven logic.

Voir la compétence

himalaya-email-manager

Communication

This Claude Skill enables email management through the Himalaya CLI tool using IMAP. It allows developers to search, summarize, and delete emails from an IMAP account with natural language queries. Use it for automated email workflows like getting daily summaries or performing batch operations directly from Claude.

Voir la compétence