MCP HubMCP Hub
스킬 목록으로 돌아가기

run-ab-test-models

pjt222
업데이트됨 2 days ago
1 조회
17
2
17
GitHub에서 보기
테스팅testingdesigndata

정보

이 기술은 트래픽 분할, 통계적 유의성 테스트, 카나리/섀도우 배포를 통해 프로덕션 환경에서 ML 모델의 A/B 테스트를 가능하게 합니다. 성능 차이를 측정하여 데이터 기반의 롤아웃 결정을 내리며, 새 버전 검증, 후보 모델 비교, 비즈니스 지표 영향 평가에 유용합니다. 개발자들은 전체 배포 전에 통제된 실험을 위해 이를 사용합니다.

빠른 설치

Claude Code

추천
기본
npx skills add pjt222/agent-almanac -a claude-code
플러그인 명령대체
/plugin add https://github.com/pjt222/agent-almanac
Git 클론대체
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/run-ab-test-models

Claude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요

문서

Run A/B Test for Models

See Extended Examples for complete config + templates.

Controlled experiments comparing model vers via traffic split + stat analysis.

Use When

  • Deploy new model ver → validate pre-full-rollout
  • Compare candidates (diff algos|features)
  • Test hyperparam impact on biz metrics
  • Measure prod perf w/o full traffic risk
  • Regulatory gradual rollout (medical ML)
  • Cost-perf tradeoff between sizes

In

  • Required: Champion (current prod ver)
  • Required: Challenger(s) (new ver)
  • Required: Traffic alloc % (e.g. 5% → challenger)
  • Required: Success metrics (biz + ML)
  • Required: Min sample size|test duration
  • Optional: Guardrail metrics (latency, err threshold)
  • Optional: User segments → stratified test

Do

Step 1: Design Experiment

Test params, success criteria, stat reqs.

# ab_test/experiment_config.py
from dataclasses import dataclass
from typing import List, Dict
import numpy as np
from scipy.stats import norm


@dataclass
# ... (see EXAMPLES.md for complete implementation)

→ Stat-sound sample size calc, typically 5-10k/variant for 5-10% MDE.

If err: sample too large → ↑traffic alloc, ext duration, accept larger MDE; verify baseline accurate; sequential testing for continuous monitor.

Step 2: Traffic Split

Routing → random model assign.

# ab_test/traffic_router.py
import hashlib
import random
from typing import Dict, Optional
from dataclasses import dataclass
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Consistent user→variant, accurate split, all assigns logged.

If err: verify hash uniform (test 10k user IDs); user_id stable cross-req (not session_id); logs capture all preds; validate split first 1000 reqs.

Step 3: Shadow Deploy (Optional)

Challenger parallel w/o user impact.

# ab_test/shadow_deployment.py
import asyncio
from typing import Dict, Any
import logging
from concurrent.futures import ThreadPoolExecutor
import time

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Champion served normal latency, challenger logged async no-block, pred diffs captured.

If err: challenger timeout < champion SLA → no block; handle errs gracefully → no champion impact; monitor mem (2 models loaded); sample (log 10% shadow preds).

Step 4: Collect+Analyze Metrics

Gather data → stat tests.

# ab_test/analysis.py
import pandas as pd
import numpy as np
from scipy import stats
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Stat results w/ p-vals, CIs, clear decision (rollout|keep|inconclusive), typically 7-14d|sample size hit.

If err: verify ground truth labels (may need delayed analysis); SRM check (assign bugs); sufficient sample; novelty/primacy in early data; sequential if fixed-horizon slow.

Step 5: Monitor Guardrails

Continuous check → challenger no safety violation.

# ab_test/guardrails.py
import pandas as pd
import logging
from typing import Dict, List

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

→ Violations detected 5-15min, auto-stop if critical breach (latency, errs), team alerts.

If err: thresholds realistic (not too tight); monitor loop running; stop_experiment() updates routing; test alert delivery.

Step 6: Rollout Decision

Based on results → decide rollout.

# ab_test/rollout_decision.py
import logging
from typing import Dict
from dataclasses import dataclass

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

→ Clear decision (full|gradual|keep|extend) + justification + actions.

If err: unclear → subgroup analysis (segment, time, device); interaction effects; biz ctx (2% lift worth eng cost?); consult stakeholders.

Check

  • Traffic split matches configured (within 1%)
  • Same user → same variant (consistency)
  • Sample size reasonable (5-50k/variant)
  • Stat tests p-vals match manual calc
  • Guardrail violations → alerts <5min
  • Shadow shows <5% pred divergence
  • Reports include CIs
  • Decision documented w/ justification

Traps

  • SRM: Observed split ≠ configured (95/5→92/8) → assign bug; check hash uniformity
  • Peeking: Check before sample size inflates Type I; sequential test or wait for end date
  • Novelty: Users respond diff initially; run 2+ wks for steady state
  • Carryover: Prev exposure affects current; new users|washout
  • Multi-test: Many metrics ↑false pos; Bonferroni or single primary
  • Insufficient power: Small alloc → months for realistic effects; balance power vs risk
  • Ignore segments: Aggregate lift hides neg impact on segments; subgroup analysis
  • Attribution errs: Outcome metrics correctly attributed to preds (not other changes)

  • deploy-ml-model-serving — deploy infra + versioning
  • monitor-model-drift — ongoing perf monitor post-rollout

GitHub 저장소

pjt222/agent-almanac
경로: i18n/caveman-ultra/skills/run-ab-test-models
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

연관 스킬

evaluating-llms-harness

테스팅

이 Claude Skill은 MMLU, GSM8K를 포함한 60개 이상의 표준화된 학술 과제에서 LLM 성능을 벤치마크하기 위해 lm-evaluation-harness를 실행합니다. 개발자들이 모델 품질을 비교하고, 학습 진행 상황을 추적하거나 학술 결과를 보고할 수 있도록 설계되었습니다. 이 도구는 HuggingFace와 vLLM 모델을 포함한 다양한 백엔드를 지원합니다.

스킬 보기

cloudflare-cron-triggers

테스팅

이 스킬은 cron 표현식을 사용하여 Worker를 스케줄링하기 위한 Cloudflare Cron Triggers 구현에 관한 포괄적인 지식을 제공합니다. 주기적 작업, 유지보수 작업, 자동화된 워크플로우 설정 방법을 다루며, 잘못된 cron 표현식이나 시간대 문제 같은 일반적인 이슈들을 해결하는 방법을 포함합니다. 개발자들은 이를 통해 스케줄된 핸들러 구성, cron 트리거 테스트, Workflows 및 Green Compute와의 연동 작업을 수행할 수 있습니다.

스킬 보기

webapp-testing

테스팅

이 Claude Skill은 Python 스크립트를 통해 로컬 웹 애플리케이션을 테스트하기 위한 Playwright 기반 툴킷을 제공합니다. 프론트엔드 검증, UI 디버깅, 스크린샷 캡처, 로그 확인 기능을 지원하며 서버 라이프사이클을 관리합니다. 브라우저 자동화 작업에 사용하되 컨텍스트 오염을 방지하기 위해 소스 코드를 읽지 않고 스크립트를 직접 실행하세요.

스킬 보기

finishing-a-development-branch

테스팅

이 스킬은 테스트 통과를 확인한 후 체계적인 통합 옵션을 제시하여 개발자가 완성된 작업을 마무리하도록 돕습니다. 구현이 완료된 후 머지, PR 생성, 브랜치 정리와 같은 워크플로우를 안내합니다. 코드가 준비되고 테스트가 완료되었을 때 개발 프로세스를 체계적으로 마무리하기 위해 사용하세요.

스킬 보기