スキル一覧に戻る

Evals

danielmiessler
更新日 3 days ago
2 閲覧
9,895
1,393
9,895
GitHubで表示
メタaitestingdesign

について

Evalsスキルは、コード、モデル、または人間による評価者を用いて、pass@k/pass^kスコアリングによる客観的な評価指標を提供します。エージェントのベンチマーク、モデル/プロンプトの比較、回帰テスト、動作検証にご利用いただけます。スイート管理、トランスクリプト収集、トライアル実行を含み、カスタム設定もサポートしています。

クイックインストール

Claude Code

推奨
メイン
npx skills add danielmiessler/Personal_AI_Infrastructure -a claude-code
プラグインコマンド代替
/plugin add https://github.com/danielmiessler/Personal_AI_Infrastructure
Git クローン代替
git clone https://github.com/danielmiessler/Personal_AI_Infrastructure.git ~/.claude/skills/Evals

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

danielmiessler/Personal_AI_Infrastructure
パス: Releases/v4.0.0/.claude/skills/Utilities/Evals
0
aiaugmentationhumansproductivity

関連スキル

content-collections

メタ

このスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る