MCP HubMCP Hub
Retour aux compétences

ab-test-stats

guia-matthieu
Mis à jour 2 days ago
7 vues
111
20
111
Voir sur GitHub
Teststestingdesigndata

À propos

Cette compétence calcule la signification statistique pour les tests A/B, aidant les développeurs à déterminer si les résultats sont significatifs. Elle assiste dans la planification de la taille d'échantillon, l'estimation de la durée des tests et l'analyse de la puissance pour les expériences de conversion. Utilisez-la pour prendre des décisions fondées sur les données en analysant les résultats des tests et en garantissant une conception d'expérience fiable.

Installation rapide

Claude Code

Recommandé
Principal
npx skills add guia-matthieu/clawfu-skills -a claude-code
Commande PluginAlternatif
/plugin add https://github.com/guia-matthieu/clawfu-skills
Git CloneAlternatif
git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/ab-test-stats

Copiez et collez cette commande dans Claude Code pour installer cette compétence

Documentation

A/B Test Statistics Calculator

Calculate statistical significance for A/B tests - know when your results are real, not random chance.

When to Use This Skill

  • Test analysis - Determine if results are statistically significant
  • Sample planning - Calculate required sample size before testing
  • Duration estimation - Know how long to run experiments
  • Power analysis - Ensure tests can detect meaningful differences

What Claude Does vs What You Decide

Claude DoesYou Decide
Structures analysis frameworksMetric definitions
Identifies patterns in dataBusiness interpretation
Creates visualization templatesDashboard design
Suggests optimization areasAction priorities
Calculates statistical measuresDecision thresholds

Dependencies

pip install scipy numpy click

Commands

Check Significance

python scripts/main.py significance --control 1000,50 --variant 1000,65
python scripts/main.py significance --control 5000,250 --variant 5000,300 --confidence 0.99

Calculate Sample Size

python scripts/main.py sample-size --baseline 0.05 --mde 0.02
python scripts/main.py sample-size --baseline 0.10 --mde 0.01 --power 0.90

Estimate Duration

python scripts/main.py duration --traffic 1000 --baseline 0.05 --mde 0.02

Examples

Example 1: Analyze Test Results

# Control: 1000 visitors, 50 conversions (5%)
# Variant: 1000 visitors, 65 conversions (6.5%)
python scripts/main.py significance --control 1000,50 --variant 1000,65

# Output:
# A/B Test Results
# ─────────────────────────
# Control:  5.00% (50/1000)
# Variant:  6.50% (65/1000)
# Lift:     +30.0%
#
# Statistical Analysis
# ─────────────────────────
# p-value:      0.089
# Confidence:   91.1%
# Result:       NOT SIGNIFICANT (need 95%)
#
# Recommendation: Continue test for more data

Example 2: Plan Sample Size

# Baseline 5% conversion, want to detect 20% relative lift (1% absolute)
python scripts/main.py sample-size --baseline 0.05 --mde 0.01

# Output:
# Sample Size Calculator
# ──────────────────────────────
# Baseline conversion: 5.0%
# Minimum detectable effect: 1.0% (20% relative)
# Target conversion: 6.0%
#
# Required per variant: 3,842 visitors
# Total required: 7,684 visitors
#
# At 1000 daily visitors: ~8 days

Key Concepts

TermDefinition
p-valueProbability result is due to chance
Confidence1 - p-value (usually want 95%+)
PowerProbability of detecting real effect (usually 80%)
MDEMinimum Detectable Effect - smallest lift worth detecting
LiftRelative improvement (variant - control) / control

When Results Are Significant

p-valueConfidenceVerdict
< 0.01> 99%Highly Significant ✓
< 0.05> 95%Significant ✓
< 0.10> 90%Marginally Significant
≥ 0.10< 90%Not Significant ✗

Skill Boundaries

What This Skill Does Well

  • Structuring data analysis
  • Identifying patterns and trends
  • Creating visualization frameworks
  • Calculating statistical measures

What This Skill Cannot Do

  • Access your actual data
  • Replace statistical expertise
  • Make business decisions
  • Guarantee prediction accuracy

Related Skills

Skill Metadata

  • Mode: centaur
category: analytics
subcategory: statistics
dependencies: [scipy, numpy]
difficulty: intermediate
time_saved: 3+ hours/week

Dépôt GitHub

guia-matthieu/clawfu-skills
Chemin: skills/analytics/ab-test-stats
0
ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

Compétences associées

evaluating-llms-harness

Tests

Cette compétence Claude exécute le lm-evaluation-harness pour évaluer les modèles de langage sur plus de 60 tâches académiques standardisées telles que MMLU et GSM8K. Elle est conçue pour permettre aux développeurs de comparer la qualité des modèles, de suivre les progrès de l'entraînement ou de rapporter des résultats académiques. L'outil prend en charge différents backends, incluant les modèles HuggingFace et vLLM.

Voir la compétence

cloudflare-cron-triggers

Tests

Cette compétence fournit une connaissance complète pour la mise en œuvre de Déclencheurs Cron Cloudflare afin de planifier des Workers à l'aide d'expressions cron. Elle couvre la configuration de tâches périodiques, de travaux de maintenance et de flux de travail automatisés, tout en traitant des problèmes courants tels que les expressions cron non valides et les problèmes de fuseau horaire. Les développeurs peuvent l'utiliser pour configurer des gestionnaires planifiés, tester des déclencheurs cron et intégrer avec Workflows et Green Compute.

Voir la compétence

webapp-testing

Tests

Cette Compétence Claude fournit une boîte à outils basée sur Playwright pour tester des applications web locales via des scripts Python. Elle permet la vérification frontend, le débogage d'interface utilisateur, la capture d'écrans et la consultation des journaux, tout en gérant les cycles de vie du serveur. Utilisez-la pour les tâches d'automatisation de navigateur, mais exécutez les scripts directement plutôt que de lire leur code source pour éviter la pollution du contexte.

Voir la compétence

finishing-a-development-branch

Tests

Cette compétence aide les développeurs à finaliser leur travail en vérifiant que les tests passent, puis en présentant des options d'intégration structurées. Elle guide le processus de fusion, de création de PRs ou de nettoyage des branches une fois l'implémentation terminée. Utilisez-la lorsque votre code est prêt et testé pour finaliser systématiquement le cycle de développement.

Voir la compétence