SKILL·AEB011

ab-test-stats

Name: ab-test-stats
Author: guia-matthieu

guia-matthieu

Обновлено 1 month ago

8 просмотров

134

Посмотреть на GitHub

Тестированиеtestingdesigndata

О программе

Этот навык рассчитывает статистическую значимость для A/B-тестов, помогая разработчикам определить, являются ли результаты значимыми. Он помогает в планировании размера выборки, оценке продолжительности теста и анализе мощности для экспериментов с конверсией. Используйте его для принятия решений на основе данных, анализируя результаты тестов и обеспечивая надежный дизайн экспериментов.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add guia-matthieu/clawfu-skills -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/guia-matthieu/clawfu-skills

Git клонированиеАльтернативный

git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/ab-test-stats

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

A/B Test Statistics Calculator

Calculate statistical significance for A/B tests - know when your results are real, not random chance.

When to Use This Skill

Test analysis - Determine if results are statistically significant
Sample planning - Calculate required sample size before testing
Duration estimation - Know how long to run experiments
Power analysis - Ensure tests can detect meaningful differences

What Claude Does vs What You Decide

Claude Does	You Decide
Structures analysis frameworks	Metric definitions
Identifies patterns in data	Business interpretation
Creates visualization templates	Dashboard design
Suggests optimization areas	Action priorities
Calculates statistical measures	Decision thresholds

Dependencies

pip install scipy numpy click

Commands

Check Significance

python scripts/main.py significance --control 1000,50 --variant 1000,65
python scripts/main.py significance --control 5000,250 --variant 5000,300 --confidence 0.99

Calculate Sample Size

python scripts/main.py sample-size --baseline 0.05 --mde 0.02
python scripts/main.py sample-size --baseline 0.10 --mde 0.01 --power 0.90

Estimate Duration

python scripts/main.py duration --traffic 1000 --baseline 0.05 --mde 0.02

Examples

Example 1: Analyze Test Results

# Control: 1000 visitors, 50 conversions (5%)
# Variant: 1000 visitors, 65 conversions (6.5%)
python scripts/main.py significance --control 1000,50 --variant 1000,65

# Output:
# A/B Test Results
# ─────────────────────────
# Control:  5.00% (50/1000)
# Variant:  6.50% (65/1000)
# Lift:     +30.0%
#
# Statistical Analysis
# ─────────────────────────
# p-value:      0.089
# Confidence:   91.1%
# Result:       NOT SIGNIFICANT (need 95%)
#
# Recommendation: Continue test for more data

Example 2: Plan Sample Size

# Baseline 5% conversion, want to detect 20% relative lift (1% absolute)
python scripts/main.py sample-size --baseline 0.05 --mde 0.01

# Output:
# Sample Size Calculator
# ──────────────────────────────
# Baseline conversion: 5.0%
# Minimum detectable effect: 1.0% (20% relative)
# Target conversion: 6.0%
#
# Required per variant: 3,842 visitors
# Total required: 7,684 visitors
#
# At 1000 daily visitors: ~8 days

Key Concepts

Term	Definition
p-value	Probability result is due to chance
Confidence	1 - p-value (usually want 95%+)
Power	Probability of detecting real effect (usually 80%)
MDE	Minimum Detectable Effect - smallest lift worth detecting
Lift	Relative improvement (variant - control) / control

When Results Are Significant

p-value	Confidence	Verdict
< 0.01	> 99%	Highly Significant ✓
< 0.05	> 95%	Significant ✓
< 0.10	> 90%	Marginally Significant
≥ 0.10	< 90%	Not Significant ✗

Skill Boundaries

What This Skill Does Well

Structuring data analysis
Identifying patterns and trends
Creating visualization frameworks
Calculating statistical measures

What This Skill Cannot Do

Access your actual data
Replace statistical expertise
Make business decisions
Guarantee prediction accuracy

Related Skills

cohort-analysis - Analyze user cohorts
funnel-analyzer - Analyze conversion funnels

Skill Metadata

Mode: centaur

category: analytics
subcategory: statistics
dependencies: [scipy, numpy]
difficulty: intermediate
time_saved: 3+ hours/week

GitHub репозиторий

guia-matthieu/clawfu-skills

Путь: skills/analytics/ab-test-stats

ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

FAQ

Frequently asked questions

What is the ab-test-stats skill?

ab-test-stats is a Claude Skill by guia-matthieu. Skills package instructions and resources that Claude loads on demand, so Claude can perform ab-test-stats-related tasks without extra prompting.

How do I install ab-test-stats?

Use the install commands on this page: add ab-test-stats to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does ab-test-stats belong to?

ab-test-stats is in the Testing category, tagged testing, design and data.

Is ab-test-stats free to use?

Yes. ab-test-stats is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

evaluating-llms-harness

Тестирование

Этот навык Claude запускает lm-evaluation-harness для тестирования LLM на более чем 60 стандартизированных академических задачах, таких как MMLU и GSM8K. Он предназначен для разработчиков, чтобы сравнивать качество моделей, отслеживать прогресс обучения или сообщать академические результаты. Инструмент поддерживает различные бэкенды, включая модели HuggingFace и vLLM.

Просмотреть навык

cloudflare-cron-triggers

Тестирование

Этот навык предоставляет обширные знания по реализации Cloudflare Cron Triggers для планирования запуска Workers с помощью cron-выражений. Он охватывает настройку периодических задач, заданий технического обслуживания и автоматизированных рабочих процессов, а также решение распространенных проблем, таких как неверные cron-выражения и ошибки часовых поясов. Разработчики могут использовать его для настройки планировщиков обработчиков, тестирования cron-триггеров и интеграции с Workflows и Green Compute.

Просмотреть навык

webapp-testing

Тестирование

Этот навык Claude предоставляет инструментарий на базе Playwright для тестирования локальных веб-приложений с помощью Python-скриптов. Он позволяет проводить проверку фронтенда, отладку интерфейса, создание скриншотов и просмотр логов, одновременно управляя жизненным циклом сервера. Используйте его для задач автоматизации браузера, но запускайте скрипты напрямую, вместо чтения их исходного кода, чтобы избежать загрязнения контекста.

Просмотреть навык

finishing-a-development-branch

Тестирование

Этот навык помогает разработчикам завершать готовую работу, проверяя прохождение тестов и предлагая структурированные варианты интеграции. Он направляет рабочий процесс по слиянию, созданию пул-реквестов или очистке веток после завершения реализации. Используйте его, когда ваш код готов и протестирован, чтобы систематически завершать процесс разработки.

Просмотреть навык