SKILL·1CD65B

run-ab-test-models

Name: run-ab-test-models
Author: pjt222

pjt222

Actualizado 1 month ago

9 vistas

Pruebastestingdesigndata

Acerca de

Esta habilidad permite realizar pruebas A/B de modelos de ML en producción mediante división de tráfico, pruebas de significancia estadística y despliegues tipo canario/sombra. Mide diferencias de rendimiento para tomar decisiones de implementación basadas en datos, siendo útil para validar nuevas versiones, comparar candidatos y evaluar el impacto en métricas de negocio. Los desarrolladores la utilizan para experimentación controlada antes del despliegue completo.

Instalación rápida

Claude Code

Recomendado

Principal

npx skills add pjt222/agent-almanac -a claude-code

Comando PluginAlternativo

/plugin add https://github.com/pjt222/agent-almanac

Git CloneAlternativo

git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/run-ab-test-models

Copia y pega este comando en Claude Code para instalar esta habilidad

Documentación

Run A/B Test for Models

See Extended Examples for complete config + templates.

Controlled experiments comparing model vers via traffic split + stat analysis.

Use When

Deploy new model ver → validate pre-full-rollout
Compare candidates (diff algos|features)
Test hyperparam impact on biz metrics
Measure prod perf w/o full traffic risk
Regulatory gradual rollout (medical ML)
Cost-perf tradeoff between sizes

In

Required: Champion (current prod ver)
Required: Challenger(s) (new ver)
Required: Traffic alloc % (e.g. 5% → challenger)
Required: Success metrics (biz + ML)
Required: Min sample size|test duration
Optional: Guardrail metrics (latency, err threshold)
Optional: User segments → stratified test

Do

Step 1: Design Experiment

Test params, success criteria, stat reqs.

# ab_test/experiment_config.py
from dataclasses import dataclass
from typing import List, Dict
import numpy as np
from scipy.stats import norm


@dataclass
# ... (see EXAMPLES.md for complete implementation)

→ Stat-sound sample size calc, typically 5-10k/variant for 5-10% MDE.

If err: sample too large → ↑traffic alloc, ext duration, accept larger MDE; verify baseline accurate; sequential testing for continuous monitor.

Step 2: Traffic Split

Routing → random model assign.

# ab_test/traffic_router.py
import hashlib
import random
from typing import Dict, Optional
from dataclasses import dataclass
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Consistent user→variant, accurate split, all assigns logged.

If err: verify hash uniform (test 10k user IDs); user_id stable cross-req (not session_id); logs capture all preds; validate split first 1000 reqs.

Step 3: Shadow Deploy (Optional)

Challenger parallel w/o user impact.

# ab_test/shadow_deployment.py
import asyncio
from typing import Dict, Any
import logging
from concurrent.futures import ThreadPoolExecutor
import time

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Champion served normal latency, challenger logged async no-block, pred diffs captured.

If err: challenger timeout < champion SLA → no block; handle errs gracefully → no champion impact; monitor mem (2 models loaded); sample (log 10% shadow preds).

Step 4: Collect+Analyze Metrics

Gather data → stat tests.

# ab_test/analysis.py
import pandas as pd
import numpy as np
from scipy import stats
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

→ Stat results w/ p-vals, CIs, clear decision (rollout|keep|inconclusive), typically 7-14d|sample size hit.

If err: verify ground truth labels (may need delayed analysis); SRM check (assign bugs); sufficient sample; novelty/primacy in early data; sequential if fixed-horizon slow.

Step 5: Monitor Guardrails

Continuous check → challenger no safety violation.

# ab_test/guardrails.py
import pandas as pd
import logging
from typing import Dict, List

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

→ Violations detected 5-15min, auto-stop if critical breach (latency, errs), team alerts.

If err: thresholds realistic (not too tight); monitor loop running; stop_experiment() updates routing; test alert delivery.

Step 6: Rollout Decision

Based on results → decide rollout.

# ab_test/rollout_decision.py
import logging
from typing import Dict
from dataclasses import dataclass

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

→ Clear decision (full|gradual|keep|extend) + justification + actions.

If err: unclear → subgroup analysis (segment, time, device); interaction effects; biz ctx (2% lift worth eng cost?); consult stakeholders.

Check

Traffic split matches configured (within 1%)
Same user → same variant (consistency)
Sample size reasonable (5-50k/variant)
Stat tests p-vals match manual calc
Guardrail violations → alerts <5min
Shadow shows <5% pred divergence
Reports include CIs
Decision documented w/ justification

Traps

SRM: Observed split ≠ configured (95/5→92/8) → assign bug; check hash uniformity
Peeking: Check before sample size inflates Type I; sequential test or wait for end date
Novelty: Users respond diff initially; run 2+ wks for steady state
Carryover: Prev exposure affects current; new users|washout
Multi-test: Many metrics ↑false pos; Bonferroni or single primary
Insufficient power: Small alloc → months for realistic effects; balance power vs risk
Ignore segments: Aggregate lift hides neg impact on segments; subgroup analysis
Attribution errs: Outcome metrics correctly attributed to preds (not other changes)

→

deploy-ml-model-serving — deploy infra + versioning
monitor-model-drift — ongoing perf monitor post-rollout

Repositorio GitHub

pjt222/agent-almanac

Ruta: i18n/caveman-ultra/skills/run-ab-test-models

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the run-ab-test-models skill?

run-ab-test-models is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform run-ab-test-models-related tasks without extra prompting.

How do I install run-ab-test-models?

Use the install commands on this page: add run-ab-test-models to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does run-ab-test-models belong to?

run-ab-test-models is in the Testing category, tagged testing, design and data.

Is run-ab-test-models free to use?

Yes. run-ab-test-models is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Habilidades relacionadas

evaluating-llms-harness

Pruebas

Esta Skill de Claude ejecuta el benchmark lm-evaluation-harness para evaluar modelos de lenguaje en más de 60 tareas académicas estandarizadas como MMLU y GSM8K. Está diseñada para que los desarrolladores comparen la calidad de los modelos, realicen seguimiento del progreso del entrenamiento o reporten resultados académicos. La herramienta admite varios backends, incluidos modelos de HuggingFace y vLLM.

Ver habilidad

cloudflare-cron-triggers

Pruebas

Esta habilidad proporciona conocimiento integral para implementar Cron Triggers de Cloudflare y programar Workers mediante expresiones cron. Cubre la configuración de tareas periódicas, trabajos de mantenimiento y flujos de trabajo automatizados, manejando problemas comunes como expresiones cron inválidas y inconvenientes de zonas horarias. Los desarrolladores pueden utilizarla para configurar manejadores programados, probar activadores cron e integrar con Workflows y Green Compute.

Ver habilidad

webapp-testing

Pruebas

Esta habilidad de Claude proporciona un kit de herramientas basado en Playwright para probar aplicaciones web locales mediante scripts de Python. Permite verificación de frontend, depuración de interfaz de usuario, captura de pantallas y visualización de registros, mientras gestiona los ciclos de vida del servidor. Úsela para tareas de automatización de navegadores, pero ejecute los scripts directamente en lugar de leer su código fuente para evitar contaminación del contexto.

Ver habilidad

finishing-a-development-branch

Pruebas

Esta habilidad ayuda a los desarrolladores a completar el trabajo terminado verificando que las pruebas pasen y luego presentando opciones estructuradas de integración. Guía el flujo de trabajo para fusionar, crear PRs o limpiar ramas después de que se completa la implementación. Úsala cuando tu código esté listo y probado para finalizar sistemáticamente el proceso de desarrollo.

Ver habilidad