スキル一覧に戻る

eval-harness

affaan-m
更新日 3 days ago
5 閲覧
77,317
9,709
77,317
GitHubで表示
開発ai

について

eval-harnessスキルは、Evaluation-Driven Development(EDD)の原則を実装したClaude Codeセッション向けの正式な評価フレームワークを提供します。開発者は実装前に能力テストと回帰チェックを定義し、開発中に評価を継続的に実行して進捗を追跡し、回帰を防止できます。このフレームワークは、確定的なコードベースの評価と、pass@kメトリクスを用いた人間の判断評価の両方をサポートしています。

クイックインストール

Claude Code

推奨
メイン
npx skills add affaan-m/everything-claude-code -a claude-code
プラグインコマンド代替
/plugin add https://github.com/affaan-m/everything-claude-code
Git クローン代替
git clone https://github.com/affaan-m/everything-claude-code.git ~/.claude/skills/eval-harness

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

affaan-m/everything-claude-code
パス: docs/ja-JP/skills/eval-harness
0
ai-agentsanthropicclaudeclaude-codedeveloper-toolsllm

関連スキル

qmd

開発

qmdは、BM25、ベクトル埋め込み、およびリランキングを組み合わせたハイブリッド検索を用いて、ローカルファイルのインデックス作成と検索を可能にするローカル検索・インデックス作成CLIツールです。コマンドラインでの使用と、Claudeとの統合のためのMCP(Model Context Protocol)モードの両方をサポートしています。このツールは埋め込みにOllamaを使用し、インデックスをローカルに保存するため、ターミナルから直接ドキュメントやコードベースを検索するのに最適です。

スキルを見る

subagent-driven-development

開発

このスキルは、各独立したタスクに対して新規のサブエージェントを起動し、タスク間でコードレビューを実施しながら実装計画を実行します。レビュープロセスを通じて品質基準を維持しつつ、迅速な反復を可能にします。同一セッション内で主に独立したタスクに取り組む際に本スキルをご利用いただくことで、組み込まれた品質チェックを伴う継続的な進捗を確保できます。

スキルを見る

mcporter

開発

mcporterスキルは、開発者がClaudeから直接Model Context Protocol(MCP)サーバーを管理および呼び出せるようにします。このスキルは、利用可能なサーバーの一覧表示、引数を指定したツールの呼び出し、認証およびデーモンのライフサイクル管理を行うコマンドを提供します。開発ワークフローにおいてMCPサーバーの機能を統合およびテストする際に、このスキルをご利用ください。

スキルを見る

adk-deployment-specialist

開発

このスキルは、A2Aプロトコルを使用してVertex AI ADKエージェントをデプロイおよびオーケストレーションし、AgentCardの発見、タスク送信、およびコード実行サンドボックスやメモリバンクなどのサポートツールを管理します。Python、Java、またはGoで、順次、並列、またはループのオーケストレーションパターンを用いたマルチエージェントシステムの構築を可能にします。Google Cloud上でADKエージェントのデプロイやエージェントワークフローのオーケストレーションを求められた際にご利用ください。

スキルを見る