SKILL·6C0283

eval-driven-dev

Name: eval-driven-dev
Author: github

github

更新日 1 month ago

9 閲覧

25,294

2,903

25,294

GitHubで表示

メタaitestingdesigndata

について

このスキルは、Python LLMアプリケーションのための完全な評価主導開発パイプラインを提供し、開発者がコードを計装し、テストデータセットを構築し、評価を実行して退行を検出し、問題をデバッグできるようにします。プロンプトやエージェントの動作が変更された際に、評価ベースのテストの作成から失敗の根本原因分析に至るまでの完全なテストサイクルを自動的に処理します。LLMを呼び出すPythonプロジェクトの開発、テスト、ベンチマークを行う際には常にこれを使用し、出力品質を確保し、退行を防止してください。

クイックインストール

Claude Code

推奨

メイン

npx skills add github/awesome-copilot -a claude-code

プラグインコマンド代替

/plugin add https://github.com/github/awesome-copilot

Git クローン代替

git clone https://github.com/github/awesome-copilot.git ~/.claude/skills/eval-driven-dev

このコマンドをClaude Codeにコピー＆ペーストしてスキルをインストールします

GitHub リポジトリ

github/awesome-copilot

パス: skills/eval-driven-dev

agent-skillsagentsaiawesomecustom-agentsgithub-copilot

FAQ

Frequently asked questions

What is the eval-driven-dev skill?

eval-driven-dev is a Claude Skill by github. Skills package instructions and resources that Claude loads on demand, so Claude can perform eval-driven-dev-related tasks without extra prompting.

How do I install eval-driven-dev?

Use the install commands on this page: add eval-driven-dev to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does eval-driven-dev belong to?

eval-driven-dev is in the Meta category, tagged ai, testing, design and data.

Is eval-driven-dev free to use?

Yes. eval-driven-dev is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

関連スキル

content-collections

メタ

このスキルは、Content Collections（Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール）の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る