SKILL·5C08A2

ai-evals

Name: ai-evals
Author: RefoundAI

RefoundAI

更新日 1 month ago

8 閲覧

454

GitHubで表示

メタaitestingdesign

について

ai-evalsスキルは、開発者がLLM機能やモデルの評価を体系的に作成・実行することを支援します。製品要件に対するAI出力の品質を測定するためのテストケース、評価基準、採点方法の設計をユーザーに導きます。モデルのパフォーマンス測定やAI製品の品質基準を定義する評価を構築する際に、このスキルをご利用ください。

クイックインストール

Claude Code

推奨

メイン

npx skills add RefoundAI/lenny-skills -a claude-code

プラグインコマンド代替

/plugin add https://github.com/RefoundAI/lenny-skills

Git クローン代替

git clone https://github.com/RefoundAI/lenny-skills.git ~/.claude/skills/ai-evals

このコマンドをClaude Codeにコピー＆ペーストしてスキルをインストールします

GitHub リポジトリ

RefoundAI/lenny-skills

パス: skills/ai-evals

ai-agentsai-assistantclaudeclaude-codelenny-rachitskyllm

FAQ

Frequently asked questions

What is the ai-evals skill?

ai-evals is a Claude Skill by RefoundAI. Skills package instructions and resources that Claude loads on demand, so Claude can perform ai-evals-related tasks without extra prompting.

How do I install ai-evals?

Use the install commands on this page: add ai-evals to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does ai-evals belong to?

ai-evals is in the Meta category, tagged ai, testing and design.

Is ai-evals free to use?

Yes. ai-evals is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

関連スキル

content-collections

メタ

このスキルは、Content Collections（Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール）の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る