MCP HubMCP Hub
Вернуться к навыкам

ab-test-stats

guia-matthieu
Обновлено 2 days ago
5 просмотров
111
20
111
Посмотреть на GitHub
Тестированиеtestingdesigndata

О программе

Этот навык рассчитывает статистическую значимость для A/B-тестов, помогая разработчикам определить, являются ли результаты значимыми. Он помогает в планировании размера выборки, оценке продолжительности теста и анализе мощности для экспериментов с конверсией. Используйте его для принятия решений на основе данных, анализируя результаты тестов и обеспечивая надежный дизайн экспериментов.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add guia-matthieu/clawfu-skills -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/guia-matthieu/clawfu-skills
Git клонированиеАльтернативный
git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/ab-test-stats

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

A/B Test Statistics Calculator

Calculate statistical significance for A/B tests - know when your results are real, not random chance.

When to Use This Skill

  • Test analysis - Determine if results are statistically significant
  • Sample planning - Calculate required sample size before testing
  • Duration estimation - Know how long to run experiments
  • Power analysis - Ensure tests can detect meaningful differences

What Claude Does vs What You Decide

Claude DoesYou Decide
Structures analysis frameworksMetric definitions
Identifies patterns in dataBusiness interpretation
Creates visualization templatesDashboard design
Suggests optimization areasAction priorities
Calculates statistical measuresDecision thresholds

Dependencies

pip install scipy numpy click

Commands

Check Significance

python scripts/main.py significance --control 1000,50 --variant 1000,65
python scripts/main.py significance --control 5000,250 --variant 5000,300 --confidence 0.99

Calculate Sample Size

python scripts/main.py sample-size --baseline 0.05 --mde 0.02
python scripts/main.py sample-size --baseline 0.10 --mde 0.01 --power 0.90

Estimate Duration

python scripts/main.py duration --traffic 1000 --baseline 0.05 --mde 0.02

Examples

Example 1: Analyze Test Results

# Control: 1000 visitors, 50 conversions (5%)
# Variant: 1000 visitors, 65 conversions (6.5%)
python scripts/main.py significance --control 1000,50 --variant 1000,65

# Output:
# A/B Test Results
# ─────────────────────────
# Control:  5.00% (50/1000)
# Variant:  6.50% (65/1000)
# Lift:     +30.0%
#
# Statistical Analysis
# ─────────────────────────
# p-value:      0.089
# Confidence:   91.1%
# Result:       NOT SIGNIFICANT (need 95%)
#
# Recommendation: Continue test for more data

Example 2: Plan Sample Size

# Baseline 5% conversion, want to detect 20% relative lift (1% absolute)
python scripts/main.py sample-size --baseline 0.05 --mde 0.01

# Output:
# Sample Size Calculator
# ──────────────────────────────
# Baseline conversion: 5.0%
# Minimum detectable effect: 1.0% (20% relative)
# Target conversion: 6.0%
#
# Required per variant: 3,842 visitors
# Total required: 7,684 visitors
#
# At 1000 daily visitors: ~8 days

Key Concepts

TermDefinition
p-valueProbability result is due to chance
Confidence1 - p-value (usually want 95%+)
PowerProbability of detecting real effect (usually 80%)
MDEMinimum Detectable Effect - smallest lift worth detecting
LiftRelative improvement (variant - control) / control

When Results Are Significant

p-valueConfidenceVerdict
< 0.01> 99%Highly Significant ✓
< 0.05> 95%Significant ✓
< 0.10> 90%Marginally Significant
≥ 0.10< 90%Not Significant ✗

Skill Boundaries

What This Skill Does Well

  • Structuring data analysis
  • Identifying patterns and trends
  • Creating visualization frameworks
  • Calculating statistical measures

What This Skill Cannot Do

  • Access your actual data
  • Replace statistical expertise
  • Make business decisions
  • Guarantee prediction accuracy

Related Skills

Skill Metadata

  • Mode: centaur
category: analytics
subcategory: statistics
dependencies: [scipy, numpy]
difficulty: intermediate
time_saved: 3+ hours/week

GitHub репозиторий

guia-matthieu/clawfu-skills
Путь: skills/analytics/ab-test-stats
0
ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

Похожие навыки

evaluating-llms-harness

Тестирование

Этот навык Claude запускает lm-evaluation-harness для тестирования LLM на более чем 60 стандартизированных академических задачах, таких как MMLU и GSM8K. Он предназначен для разработчиков, чтобы сравнивать качество моделей, отслеживать прогресс обучения или сообщать академические результаты. Инструмент поддерживает различные бэкенды, включая модели HuggingFace и vLLM.

Просмотреть навык

cloudflare-cron-triggers

Тестирование

Этот навык предоставляет обширные знания по реализации Cloudflare Cron Triggers для планирования запуска Workers с помощью cron-выражений. Он охватывает настройку периодических задач, заданий технического обслуживания и автоматизированных рабочих процессов, а также решение распространенных проблем, таких как неверные cron-выражения и ошибки часовых поясов. Разработчики могут использовать его для настройки планировщиков обработчиков, тестирования cron-триггеров и интеграции с Workflows и Green Compute.

Просмотреть навык

webapp-testing

Тестирование

Этот навык Claude предоставляет инструментарий на базе Playwright для тестирования локальных веб-приложений с помощью Python-скриптов. Он позволяет проводить проверку фронтенда, отладку интерфейса, создание скриншотов и просмотр логов, одновременно управляя жизненным циклом сервера. Используйте его для задач автоматизации браузера, но запускайте скрипты напрямую, вместо чтения их исходного кода, чтобы избежать загрязнения контекста.

Просмотреть навык

finishing-a-development-branch

Тестирование

Этот навык помогает разработчикам завершать готовую работу, проверяя прохождение тестов и предлагая структурированные варианты интеграции. Он направляет рабочий процесс по слиянию, созданию пул-реквестов или очистке веток после завершения реализации. Используйте его, когда ваш код готов и протестирован, чтобы систематически завершать процесс разработки.

Просмотреть навык