agent-evaluation
について
このスキルは、LLMエージェントに対する包括的なテストとベンチマークを提供し、行動テスト、能力評価、信頼性指標を含みます。開発者がエージェントのパフォーマンスを評価する必要がある際にご利用ください。実際のベンチマークでは、トップクラスのエージェントでも50%未満のスコアであるためです。完璧なテストスコアを追求するだけでなく、エージェントの挙動を理解することで、本番環境への導入前に問題を発見するのに役立ちます。
クイックインストール
Claude Code
推奨npx skills add omer-metin/skills-for-antigravity -a claude-code/plugin add https://github.com/omer-metin/skills-for-antigravitygit clone https://github.com/omer-metin/skills-for-antigravity.git ~/.claude/skills/agent-evaluationこのコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします
GitHub リポジトリ
関連スキル
evaluating-llms-harness
テストこのClaudeスキルは、lm-evaluation-harnessを実行し、MMLUやGSM8Kなど60以上の標準化学術タスクでLLMをベンチマークします。開発者がモデルの品質を比較し、トレーニングの進捗を追跡し、学術的な結果を報告するために設計されています。このツールはHuggingFaceやvLLMモデルを含む様々なバックエンドをサポートしています。
cloudflare-cron-triggers
テストこのスキルは、cron式を使用してWorkersをスケジュールするためのCloudflare Cron Triggersの実装に関する包括的な知識を提供します。定期的なタスクの設定、メンテナンスジョブ、自動化されたワークフローの構築を網羅し、無効なcron式やタイムゾーン問題といった一般的な課題への対処法も含みます。開発者はこれを使用して、スケジュールされたハンドラーの設定、cronトリガーのテスト、WorkflowsやGreen Computeとの連携を構成できます。
webapp-testing
テストこのClaude Skillは、Playwrightベースのツールキットを提供し、Pythonスクリプトを通じてローカルWebアプリケーションのテストを可能にします。フロントエンドの検証、UIデバッグ、スクリーンショット撮影、ログ表示を実現し、サーバーライフサイクルを管理します。ブラウザ自動化タスクにご利用いただけますが、コンテキストの汚染を避けるため、スクリプトのソースコードを読むのではなく直接実行してください。
finishing-a-development-branch
テストこのスキルは、開発者がテストの合格を確認し、構造化された統合オプションを提示することで、完成した作業を仕上げることを支援します。実装が完了した後のマージ、PR作成、ブランチの整理といったワークフローを案内します。コードが準備できてテスト済みの際に使用し、開発プロセスを体系的に完了させましょう。
