スキル一覧に戻る

evaluating-llms-harness

zechenzhangAGI
更新日 21 days ago
1698 閲覧
62
2
62
GitHubで表示
テストaitestingapi

について

このClaudeスキルは、lm-evaluation-harnessを実行し、MMLUやGSM8Kなど60以上の標準化学術タスクでLLMをベンチマークします。開発者がモデルの品質を比較し、トレーニングの進捗を追跡し、学術的な結果を報告するために設計されています。このツールはHuggingFaceやvLLMモデルを含む様々なバックエンドをサポートしています。

クイックインストール

Claude Code

推奨
メイン
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
プラグインコマンド代替
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git クローン代替
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/evaluating-llms-harness

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

zechenzhangAGI/AI-research-SKILLs
パス: 11-evaluation/lm-evaluation-harness
0
aiai-researchclaudeclaude-codeclaude-skillscodex

関連スキル

content-collections

メタ

This skill provides a production-tested setup for Content Collections, a TypeScript-first tool that transforms Markdown/MDX files into type-safe data collections with Zod validation. Use it when building blogs, documentation sites, or content-heavy Vite + React applications to ensure type safety and automatic content validation. It covers everything from Vite plugin configuration and MDX compilation to deployment optimization and schema validation.

スキルを見る

polymarket

メタ

This skill enables developers to build applications with the Polymarket prediction markets platform, including API integration for trading and market data. It also provides real-time data streaming via WebSocket to monitor live trades and market activity. Use it for implementing trading strategies or creating tools that process live market updates.

スキルを見る

creating-opencode-plugins

メタ

This skill helps developers create OpenCode plugins that hook into 25+ event types like commands, files, and LSP operations. It provides the plugin structure, event API specifications, and implementation patterns for JavaScript/TypeScript modules. Use it when you need to intercept, monitor, or extend the OpenCode AI assistant's lifecycle with custom event-driven logic.

スキルを見る

himalaya-email-manager

コミュニケーション

This Claude Skill enables email management through the Himalaya CLI tool using IMAP. It allows developers to search, summarize, and delete emails from an IMAP account with natural language queries. Use it for automated email workflows like getting daily summaries or performing batch operations directly from Claude.

スキルを見る