スキル一覧に戻る

ai-evals

RefoundAI
更新日 3 days ago
2 閲覧
454
57
454
GitHubで表示
メタaitestingdesign

について

ai-evalsスキルは、開発者がLLM機能やモデルの評価を体系的に作成・実行することを支援します。製品要件に対するAI出力の品質を測定するためのテストケース、評価基準、採点方法の設計をユーザーに導きます。モデルのパフォーマンス測定やAI製品の品質基準を定義する評価を構築する際に、このスキルをご利用ください。

クイックインストール

Claude Code

推奨
メイン
npx skills add RefoundAI/lenny-skills -a claude-code
プラグインコマンド代替
/plugin add https://github.com/RefoundAI/lenny-skills
Git クローン代替
git clone https://github.com/RefoundAI/lenny-skills.git ~/.claude/skills/ai-evals

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

GitHub リポジトリ

RefoundAI/lenny-skills
パス: skills/ai-evals
0
ai-agentsai-assistantclaudeclaude-codelenny-rachitskyllm

関連スキル

content-collections

メタ

このスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る