SKILL·AEB011

ab-test-stats

Name: ab-test-stats
Author: guia-matthieu

guia-matthieu

Actualizado 1 month ago

8 vistas

134

Ver en GitHub

Pruebastestingdesigndata

Acerca de

Esta habilidad calcula la significancia estadística para pruebas A/B, ayudando a los desarrolladores a determinar si los resultados son significativos. Asiste en la planificación del tamaño de muestra, la estimación de la duración de la prueba y el análisis de potencia para experimentos de conversión. Úsala para tomar decisiones basadas en datos mediante el análisis de los resultados de las pruebas y asegurando un diseño experimental confiable.

Instalación rápida

Claude Code

Recomendado

Principal

npx skills add guia-matthieu/clawfu-skills -a claude-code

Comando PluginAlternativo

/plugin add https://github.com/guia-matthieu/clawfu-skills

Git CloneAlternativo

git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/ab-test-stats

Copia y pega este comando en Claude Code para instalar esta habilidad

Documentación

A/B Test Statistics Calculator

Calculate statistical significance for A/B tests - know when your results are real, not random chance.

When to Use This Skill

Test analysis - Determine if results are statistically significant
Sample planning - Calculate required sample size before testing
Duration estimation - Know how long to run experiments
Power analysis - Ensure tests can detect meaningful differences

What Claude Does vs What You Decide

Claude Does	You Decide
Structures analysis frameworks	Metric definitions
Identifies patterns in data	Business interpretation
Creates visualization templates	Dashboard design
Suggests optimization areas	Action priorities
Calculates statistical measures	Decision thresholds

Dependencies

pip install scipy numpy click

Commands

Check Significance

python scripts/main.py significance --control 1000,50 --variant 1000,65
python scripts/main.py significance --control 5000,250 --variant 5000,300 --confidence 0.99

Calculate Sample Size

python scripts/main.py sample-size --baseline 0.05 --mde 0.02
python scripts/main.py sample-size --baseline 0.10 --mde 0.01 --power 0.90

Estimate Duration

python scripts/main.py duration --traffic 1000 --baseline 0.05 --mde 0.02

Examples

Example 1: Analyze Test Results

# Control: 1000 visitors, 50 conversions (5%)
# Variant: 1000 visitors, 65 conversions (6.5%)
python scripts/main.py significance --control 1000,50 --variant 1000,65

# Output:
# A/B Test Results
# ─────────────────────────
# Control:  5.00% (50/1000)
# Variant:  6.50% (65/1000)
# Lift:     +30.0%
#
# Statistical Analysis
# ─────────────────────────
# p-value:      0.089
# Confidence:   91.1%
# Result:       NOT SIGNIFICANT (need 95%)
#
# Recommendation: Continue test for more data

Example 2: Plan Sample Size

# Baseline 5% conversion, want to detect 20% relative lift (1% absolute)
python scripts/main.py sample-size --baseline 0.05 --mde 0.01

# Output:
# Sample Size Calculator
# ──────────────────────────────
# Baseline conversion: 5.0%
# Minimum detectable effect: 1.0% (20% relative)
# Target conversion: 6.0%
#
# Required per variant: 3,842 visitors
# Total required: 7,684 visitors
#
# At 1000 daily visitors: ~8 days

Key Concepts

Term	Definition
p-value	Probability result is due to chance
Confidence	1 - p-value (usually want 95%+)
Power	Probability of detecting real effect (usually 80%)
MDE	Minimum Detectable Effect - smallest lift worth detecting
Lift	Relative improvement (variant - control) / control

When Results Are Significant

p-value	Confidence	Verdict
< 0.01	> 99%	Highly Significant ✓
< 0.05	> 95%	Significant ✓
< 0.10	> 90%	Marginally Significant
≥ 0.10	< 90%	Not Significant ✗

Skill Boundaries

What This Skill Does Well

Structuring data analysis
Identifying patterns and trends
Creating visualization frameworks
Calculating statistical measures

What This Skill Cannot Do

Access your actual data
Replace statistical expertise
Make business decisions
Guarantee prediction accuracy

Related Skills

cohort-analysis - Analyze user cohorts
funnel-analyzer - Analyze conversion funnels

Skill Metadata

Mode: centaur

category: analytics
subcategory: statistics
dependencies: [scipy, numpy]
difficulty: intermediate
time_saved: 3+ hours/week

Repositorio GitHub

guia-matthieu/clawfu-skills

Ruta: skills/analytics/ab-test-stats

ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

FAQ

Frequently asked questions

What is the ab-test-stats skill?

ab-test-stats is a Claude Skill by guia-matthieu. Skills package instructions and resources that Claude loads on demand, so Claude can perform ab-test-stats-related tasks without extra prompting.

How do I install ab-test-stats?

Use the install commands on this page: add ab-test-stats to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does ab-test-stats belong to?

ab-test-stats is in the Testing category, tagged testing, design and data.

Is ab-test-stats free to use?

Yes. ab-test-stats is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Habilidades relacionadas

evaluating-llms-harness

Pruebas

Esta Skill de Claude ejecuta el benchmark lm-evaluation-harness para evaluar modelos de lenguaje en más de 60 tareas académicas estandarizadas como MMLU y GSM8K. Está diseñada para que los desarrolladores comparen la calidad de los modelos, realicen seguimiento del progreso del entrenamiento o reporten resultados académicos. La herramienta admite varios backends, incluidos modelos de HuggingFace y vLLM.

Ver habilidad

cloudflare-cron-triggers

Pruebas

Esta habilidad proporciona conocimiento integral para implementar Cron Triggers de Cloudflare y programar Workers mediante expresiones cron. Cubre la configuración de tareas periódicas, trabajos de mantenimiento y flujos de trabajo automatizados, manejando problemas comunes como expresiones cron inválidas y inconvenientes de zonas horarias. Los desarrolladores pueden utilizarla para configurar manejadores programados, probar activadores cron e integrar con Workflows y Green Compute.

Ver habilidad

webapp-testing

Pruebas

Esta habilidad de Claude proporciona un kit de herramientas basado en Playwright para probar aplicaciones web locales mediante scripts de Python. Permite verificación de frontend, depuración de interfaz de usuario, captura de pantallas y visualización de registros, mientras gestiona los ciclos de vida del servidor. Úsela para tareas de automatización de navegadores, pero ejecute los scripts directamente en lugar de leer su código fuente para evitar contaminación del contexto.

Ver habilidad

finishing-a-development-branch

Pruebas

Esta habilidad ayuda a los desarrolladores a completar el trabajo terminado verificando que las pruebas pasen y luego presentando opciones estructuradas de integración. Guía el flujo de trabajo para fusionar, crear PRs o limpiar ramas después de que se completa la implementación. Úsala cuando tu código esté listo y probado para finalizar sistemáticamente el proceso de desarrollo.

Ver habilidad