SKILL·308214

bedrock-agentcore-evaluations

Name: bedrock-agentcore-evaluations
Author: adaptationio

adaptationio

更新日 1 month ago

9 閲覧

テストaitestingdesign

について

このスキルは、13種類の組み込み評価ツールとカスタムLLM-as-Judgeパターンを用いて、AIエージェントのメトリックベースのテストと監視を提供します。エージェントの動作をデプロイ前に検証し、本番環境での品質を継続的に監視するためにご利用いただけます。主観的な「雰囲気ベース」の評価を、アラートとスコアリングシステムを備えた構造的な品質保証へと変換します。

クイックインストール

Claude Code

推奨

メイン

npx skills add adaptationio/Skrillz -a claude-code

プラグインコマンド代替

/plugin add https://github.com/adaptationio/Skrillz

Git クローン代替

git clone https://github.com/adaptationio/Skrillz.git ~/.claude/skills/bedrock-agentcore-evaluations

このコマンドをClaude Codeにコピー＆ペーストしてスキルをインストールします

GitHub リポジトリ

adaptationio/Skrillz

パス: .claude/skills/bedrock-agentcore-evaluations

FAQ

Frequently asked questions

What is the bedrock-agentcore-evaluations skill?

bedrock-agentcore-evaluations is a Claude Skill by adaptationio. Skills package instructions and resources that Claude loads on demand, so Claude can perform bedrock-agentcore-evaluations-related tasks without extra prompting.

How do I install bedrock-agentcore-evaluations?

Use the install commands on this page: add bedrock-agentcore-evaluations to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does bedrock-agentcore-evaluations belong to?

bedrock-agentcore-evaluations is in the Testing category, tagged ai, testing and design.

Is bedrock-agentcore-evaluations free to use?

Yes. bedrock-agentcore-evaluations is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

関連スキル

evaluating-llms-harness

テスト

このClaudeスキルは、lm-evaluation-harnessを実行し、MMLUやGSM8Kなど60以上の標準化学術タスクでLLMをベンチマークします。開発者がモデルの品質を比較し、トレーニングの進捗を追跡し、学術的な結果を報告するために設計されています。このツールはHuggingFaceやvLLMモデルを含む様々なバックエンドをサポートしています。

スキルを見る

cloudflare-cron-triggers

テスト

このスキルは、cron式を使用してWorkersをスケジュールするためのCloudflare Cron Triggersの実装に関する包括的な知識を提供します。定期的なタスクの設定、メンテナンスジョブ、自動化されたワークフローの構築を網羅し、無効なcron式やタイムゾーン問題といった一般的な課題への対処法も含みます。開発者はこれを使用して、スケジュールされたハンドラーの設定、cronトリガーのテスト、WorkflowsやGreen Computeとの連携を構成できます。

スキルを見る

webapp-testing

テスト

このClaude Skillは、Playwrightベースのツールキットを提供し、Pythonスクリプトを通じてローカルWebアプリケーションのテストを可能にします。フロントエンドの検証、UIデバッグ、スクリーンショット撮影、ログ表示を実現し、サーバーライフサイクルを管理します。ブラウザ自動化タスクにご利用いただけますが、コンテキストの汚染を避けるため、スクリプトのソースコードを読むのではなく直接実行してください。

スキルを見る

finishing-a-development-branch

テスト

このスキルは、開発者がテストの合格を確認し、構造化された統合オプションを提示することで、完成した作業を仕上げることを支援します。実装が完了した後のマージ、PR作成、ブランチの整理といったワークフローを案内します。コードが準備できてテスト済みの際に使用し、開発プロセスを体系的に完了させましょう。

スキルを見る