SKILL·0B3F9E

run-ab-test-models

Name: run-ab-test-models
Author: pjt222

pjt222

Обновлено 1 month ago

21 просмотров

Тестированиеaitestingdesigndata

О программе

Этот навык позволяет проводить A/B-тестирование ML-моделей в продакшене с использованием разделения трафика и проверки статистической значимости. Он поддерживает канареечные и теневые развертывания для измерения разницы в производительности и принятия решений о внедрении на основе данных. Используйте его для валидации новых версий моделей, сравнения алгоритмов или выполнения требований постепенного внедрения.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add pjt222/agent-almanac -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/pjt222/agent-almanac

Git клонированиеАльтернативный

git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/run-ab-test-models

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

行 A/B 模測

全配與板見 Extended Examples。

於產分流、計析、金/影釋以較模本。

用

釋新模本欲驗於全→用
較異算/特之候模→用
試超參改於業指影→用
量產上模效不冒全流→用
監管漸釋（如醫 ML）→用
評費效衡（模大）→用

入

必：冠模（當產本）
必：挑模（試新本）
必：流分比（如 5% 予挑）
必：成指（業與 ML）
必：最小樣或測時
可：護指（延、誤率限）
可：用段（分層測）

行

一：設驗

定測參、成準、計需。

# ab_test/experiment_config.py
from dataclasses import dataclass
from typing import List, Dict
import numpy as np
from scipy.stats import norm


@dataclass
# ... (see EXAMPLES.md for complete implementation)

得：驗配含計健全之樣大算，常 5-10k/變於 5-10% MDE。

敗：樣需過大→增分、延時、納大 MDE；驗基指準；考序測續察。

二：行流分

設路邏隨配請於模。

# ab_test/traffic_router.py
import hashlib
import random
from typing import Dict, Optional
from dataclasses import dataclass
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得：用-變一致配、流分準合配比、諸配記以析。

敗：驗散函生均勻（試 10k user_id）、查 user_id 跨請求穩（非 session_id）、確日誌捕諸測事件、首 1000 請驗分。

三：行影釋（可）

並行挑模而不擾用（影模）。

# ab_test/shadow_deployment.py
import asyncio
from typing import Dict, Any
import logging
from concurrent.futures import ThreadPoolExecutor
import time

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得：冠測常延供、挑測異步記不阻、測異捕以析。

敗：挑超時 < 冠 SLA、優雅理挑誤、察記憶（兩模載）、考採樣（記 10% 影測）。

四：採析指

集驗資、行計測。

# ab_test/analysis.py
import pandas as pd
import numpy as np
from scipy import stats
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得：計測果含 p、信區、明決（釋/留/未定），常 7-14 日後或達樣。

敗：驗真標可（或需延析）、查樣比錯（SRM）示配漏、足樣達、察初新/首因、考序測若定平太緩。

五：察護指

續查挑不破安限。

# ab_test/guardrails.py
import pandas as pd
import logging
from typing import Dict, List

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

得：護違 5-15 分內察、自停若關限破（延、誤）、警送組。

敗：驗護限現實（不過嚴）、確察循環續行、查 stop_experiment() 真更路、測警送。

六：作釋決

按驗果決挑釋否。

# ab_test/rollout_decision.py
import logging
from typing import Dict
from dataclasses import dataclass

logger = logging.getLogger(__name__)


# ... (see EXAMPLES.md for complete implementation)

得：明決（全/漸釋、留冠、延測）含理與行項。

敗：決不明→行子組析（按段、時、機）、查互效、覆業境（2% 升值工本乎？）、徵相關方。

驗

忌

樣比錯（SRM）：察分異於配（95/5 變 92/8）→配漏；查散函均
窺：未達樣前查果脹一型誤；用序測或待定終
新效：用初應殊；行 ≥ 2 週見穩態
承效：前變露擾今；用新用或足洗期
多測：多指增假陽；以 Bonferroni 正或重一主指
力不足：小流配需月察實效；平衡計力與險忍
忽段：聚升可藏要段負影；行子組析
歸誤：確指正歸於模測（非他系變）

參

deploy-ml-model-serving
monitor-model-drift

GitHub репозиторий

pjt222/agent-almanac

Путь: i18n/wenyan-ultra/skills/run-ab-test-models

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the run-ab-test-models skill?

run-ab-test-models is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform run-ab-test-models-related tasks without extra prompting.

How do I install run-ab-test-models?

Use the install commands on this page: add run-ab-test-models to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does run-ab-test-models belong to?

run-ab-test-models is in the Testing category, tagged ai, testing, design and data.

Is run-ab-test-models free to use?

Yes. run-ab-test-models is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

evaluating-llms-harness

Тестирование

Этот навык Claude запускает lm-evaluation-harness для тестирования LLM на более чем 60 стандартизированных академических задачах, таких как MMLU и GSM8K. Он предназначен для разработчиков, чтобы сравнивать качество моделей, отслеживать прогресс обучения или сообщать академические результаты. Инструмент поддерживает различные бэкенды, включая модели HuggingFace и vLLM.

Просмотреть навык

cloudflare-cron-triggers

Тестирование

Этот навык предоставляет обширные знания по реализации Cloudflare Cron Triggers для планирования запуска Workers с помощью cron-выражений. Он охватывает настройку периодических задач, заданий технического обслуживания и автоматизированных рабочих процессов, а также решение распространенных проблем, таких как неверные cron-выражения и ошибки часовых поясов. Разработчики могут использовать его для настройки планировщиков обработчиков, тестирования cron-триггеров и интеграции с Workflows и Green Compute.

Просмотреть навык

webapp-testing

Тестирование

Этот навык Claude предоставляет инструментарий на базе Playwright для тестирования локальных веб-приложений с помощью Python-скриптов. Он позволяет проводить проверку фронтенда, отладку интерфейса, создание скриншотов и просмотр логов, одновременно управляя жизненным циклом сервера. Используйте его для задач автоматизации браузера, но запускайте скрипты напрямую, вместо чтения их исходного кода, чтобы избежать загрязнения контекста.

Просмотреть навык

finishing-a-development-branch

Тестирование

Этот навык помогает разработчикам завершать готовую работу, проверяя прохождение тестов и предлагая структурированные варианты интеграции. Он направляет рабочий процесс по слиянию, созданию пул-реквестов или очистке веток после завершения реализации. Используйте его, когда ваш код готов и протестирован, чтобы систематически завершать процесс разработки.

Просмотреть навык