スキル一覧に戻る

run-ab-test-models

pjt222
更新日 6 days ago
13 閲覧
17
2
17
GitHubで表示
テストaitestingdesigndata

について

このスキルは、トラフィック分割と統計的有意性検定を用いて、本番環境でのMLモデルのA/Bテストを可能にします。カナリアデプロイやシャドウデプロイをサポートし、データ駆動型のロールアウト判断のためにパフォーマンスの差異を測定します。新しいモデルバージョンの検証、アルゴリズムの比較、段階的ロールアウト要件の対応にご利用ください。

クイックインストール

Claude Code

推奨
メイン
npx skills add pjt222/agent-almanac -a claude-code
プラグインコマンド代替
/plugin add https://github.com/pjt222/agent-almanac
Git クローン代替
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/run-ab-test-models

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

行 A/B 模測

全配與板見 Extended Examples

於產分流、計析、金/影釋以較模本。

  • 釋新模本欲驗於全→用
  • 較異算/特之候模→用
  • 試超參改於業指影→用
  • 量產上模效不冒全流→用
  • 監管漸釋(如醫 ML)→用
  • 評費效衡(模大)→用

  • :冠模(當產本)
  • :挑模(試新本)
  • :流分比(如 5% 予挑)
  • :成指(業與 ML)
  • :最小樣或測時
  • :護指(延、誤率限)
  • :用段(分層測)

一:設驗

定測參、成準、計需。

# ab_test/experiment_config.py
from dataclasses import dataclass
from typing import List, Dict
import numpy as np
from scipy.stats import norm


@dataclass
# ... (see EXAMPLES.md for complete implementation)

得:驗配含計健全之樣大算,常 5-10k/變於 5-10% MDE。

敗:樣需過大→增分、延時、納大 MDE;驗基指準;考序測續察。

二:行流分

設路邏隨配請於模。

# ab_test/traffic_router.py
import hashlib
import random
from typing import Dict, Optional
from dataclasses import dataclass
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:用-變一致配、流分準合配比、諸配記以析。

敗:驗散函生均勻(試 10k user_id)、查 user_id 跨請求穩(非 session_id)、確日誌捕諸測事件、首 1000 請驗分。

三:行影釋(可)

並行挑模而不擾用(影模)。

# ab_test/shadow_deployment.py
import asyncio
from typing import Dict, Any
import logging
from concurrent.futures import ThreadPoolExecutor
import time

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:冠測常延供、挑測異步記不阻、測異捕以析。

敗:挑超時 < 冠 SLA、優雅理挑誤、察記憶(兩模載)、考採樣(記 10% 影測)。

四:採析指

集驗資、行計測。

# ab_test/analysis.py
import pandas as pd
import numpy as np
from scipy import stats
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:計測果含 p、信區、明決(釋/留/未定),常 7-14 日後或達樣。

敗:驗真標可(或需延析)、查樣比錯(SRM)示配漏、足樣達、察初新/首因、考序測若定平太緩。

五:察護指

續查挑不破安限。

# ab_test/guardrails.py
import pandas as pd
import logging
from typing import Dict, List

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

得:護違 5-15 分內察、自停若關限破(延、誤)、警送組。

敗:驗護限現實(不過嚴)、確察循環續行、查 stop_experiment() 真更路、測警送。

六:作釋決

按驗果決挑釋否。

# ab_test/rollout_decision.py
import logging
from typing import Dict
from dataclasses import dataclass

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

得:明決(全/漸釋、留冠、延測)含理與行項。

敗:決不明→行子組析(按段、時、機)、查互效、覆業境(2% 升值工本乎?)、徵相關方。

  • 流分合配比(內 1%)
  • 同用恆配同變(一致查)
  • 樣大算合理(5-50k/變)
  • 計測 p 合手算
  • 護違 5 分內警
  • 影釋示模測異 < 5%
  • 驗報含信區
  • 釋決文錄附理

  • 樣比錯(SRM):察分異於配(95/5 變 92/8)→配漏;查散函均
  • :未達樣前查果脹一型誤;用序測或待定終
  • 新效:用初應殊;行 ≥ 2 週見穩態
  • 承效:前變露擾今;用新用或足洗期
  • 多測:多指增假陽;以 Bonferroni 正或重一主指
  • 力不足:小流配需月察實效;平衡計力與險忍
  • 忽段:聚升可藏要段負影;行子組析
  • 歸誤:確指正歸於模測(非他系變)

  • deploy-ml-model-serving
  • monitor-model-drift

GitHub リポジトリ

pjt222/agent-almanac
パス: i18n/wenyan-ultra/skills/run-ab-test-models
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

関連スキル

evaluating-llms-harness

テスト

このClaudeスキルは、lm-evaluation-harnessを実行し、MMLUやGSM8Kなど60以上の標準化学術タスクでLLMをベンチマークします。開発者がモデルの品質を比較し、トレーニングの進捗を追跡し、学術的な結果を報告するために設計されています。このツールはHuggingFaceやvLLMモデルを含む様々なバックエンドをサポートしています。

スキルを見る

cloudflare-cron-triggers

テスト

このスキルは、cron式を使用してWorkersをスケジュールするためのCloudflare Cron Triggersの実装に関する包括的な知識を提供します。定期的なタスクの設定、メンテナンスジョブ、自動化されたワークフローの構築を網羅し、無効なcron式やタイムゾーン問題といった一般的な課題への対処法も含みます。開発者はこれを使用して、スケジュールされたハンドラーの設定、cronトリガーのテスト、WorkflowsやGreen Computeとの連携を構成できます。

スキルを見る

webapp-testing

テスト

このClaude Skillは、Playwrightベースのツールキットを提供し、Pythonスクリプトを通じてローカルWebアプリケーションのテストを可能にします。フロントエンドの検証、UIデバッグ、スクリーンショット撮影、ログ表示を実現し、サーバーライフサイクルを管理します。ブラウザ自動化タスクにご利用いただけますが、コンテキストの汚染を避けるため、スクリプトのソースコードを読むのではなく直接実行してください。

スキルを見る

finishing-a-development-branch

テスト

このスキルは、開発者がテストの合格を確認し、構造化された統合オプションを提示することで、完成した作業を仕上げることを支援します。実装が完了した後のマージ、PR作成、ブランチの整理といったワークフローを案内します。コードが準備できてテスト済みの際に使用し、開発プロセスを体系的に完了させましょう。

スキルを見る