SKILL·AACEF8

test-team-coordination

Name: test-team-coordination
Author: pjt222

pjt222

Обновлено 1 month ago

26 просмотров

Тестированиеtesting

О программе

Этот навык выполняет тестовые сценарии для проверки команд ИИ, оценивая их паттерны координации и производительность. Он проверяет ожидаемое поведение, сравнивает различные подходы к координации и генерирует структурированные отчёты в формате RESULT.md. Разработчики могут использовать его для регрессионного тестирования, сравнительного анализа состава команд и оценки эффективности паттернов координации.

Быстрая установка

Claude Code

Рекомендуется

Основной

npx skills add pjt222/agent-almanac -a claude-code

Команда плагинаАльтернативный

/plugin add https://github.com/pjt222/agent-almanac

Git клонированиеАльтернативный

git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordination

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

测试团队协调

从 tests/scenarios/teams/ 中执行针对目标团队的测试场景。观察协调模式行为，评估验收标准，对评分标准打分，并在 tests/results/ 中生成 RESULT.md。

适用场景

验证团队的协调模式是否产生预期行为
在修改团队定义或智能体后运行结构化测试
通过对不同团队运行相同场景来比较协调模式
为团队组合建立基准性能指标
添加新智能体或更改团队成员后的回归测试

输入

必填：测试场景文件的路径（如 tests/scenarios/teams/test-opaque-team-cartographers-audit.md）
可选：运行 ID 覆盖（默认：自动生成 YYYY-MM-DD-<target>-NNN）
可选：团队规模覆盖（默认：来自场景前置元数据）
可选：跳过范围变更（默认：false——若已定义，则注入范围变更）

步骤

第 1 步：加载并验证测试场景

1.1. 读取输入中指定的测试场景文件。

1.2. 解析 YAML 前置元数据并提取：

target — 要测试的团队
coordination-pattern — 预期模式
team-size — 要生成的成员数量
验收标准表
评分标准（如存在）
基准真相数据（如存在）

1.3. 验证场景文件包含所有必需章节：

目标
前提条件
任务（含主要任务子章节）
预期行为
验收标准
观察协议

预期结果： 场景文件已加载、解析，并包含所有必需章节。

失败处理： 若文件缺失或无法解析，以识别缺失文件或格式错误章节的错误信息中止。若可选章节（评分标准、基准真相、变体）缺失，记录其缺失并继续。

第 2 步：验证前提条件

2.1. 遍历场景中每个前提条件复选框。

2.2. 对文件存在性检查，使用 Glob 验证。

2.3. 对注册表计数检查，解析相关的 _registry.yml 并将 total_* 与磁盘上的实际文件数量比较。

2.4. 对分支/git 状态检查，运行 git status --porcelain 和 git branch --show-current。

预期结果： 所有前提条件均已满足。

失败处理： 若任何前提条件失败，将其记录为 BLOCKED。决定是否继续（软性前提条件）或中止（硬性前提条件，如目标团队文件缺失）。记录决策过程。

第 3 步：加载协调模式标准

3.1. 读取 tests/_registry.yml 并找到与场景 coordination-pattern 值匹配的 coordination_patterns 条目。

3.2. 提取此模式的 key_behaviors 列表。

3.3. 这些行为成为观察清单——每条都必须在执行期间观察，并记录为已观察/未观察。

预期结果： 模式关键行为已加载并准备好观察。

失败处理： 若协调模式未在注册表中定义，使用场景的预期行为章节作为唯一观察来源。记录警告。

第 4 步：执行任务

4.1. 创建结果目录：tests/results/YYYY-MM-DD-<target>-NNN/。

4.2. 记录 T0（任务开始时间戳）。

4.3. 使用场景中的团队规模通过 TeamCreate 生成目标团队。逐字传递场景任务章节中的主要任务提示。

4.4. 观察团队的执行阶段。记录以下时间戳：

T1：形式评估/任务分解完成
T2：角色分配可见

4.5. 若场景定义了范围变更触发器且 skip-scope-change 为 false：

等到第 2 阶段（角色分配）可见
记录 T3（范围变更注入时间戳）
通过 SendMessage 向团队发送范围变更提示
记录 T4（范围变更已吸收——角色调整可见）

4.6. 继续观察直到团队交付输出。

记录 T5（整合开始）
记录 T6（最终报告已交付）

4.7. 捕获团队的完整输出。

预期结果： 团队通过其协调模式阶段执行任务。所有转换的时间戳均已记录。范围变更（如适用）已注入并被吸收。

失败处理： 若团队无法产生输出，记录失败点和任何错误信息。若团队停滞，记录最后观察到的阶段和超时。以部分结果继续评估。

第 5 步：评估模式行为

5.1. 对第 3 步中的每个关键行为，确定在执行期间是否观察到：

已观察：团队输出或协调中有清晰证据
部分：有一些证据但不完整或模糊
未观察：无证据

5.2. 对场景预期行为章节中的每个特定任务行为，应用相同的评估。

5.3. 在观察日志中记录发现。

预期结果： 大部分或全部特定模式和特定任务行为已被观察到。

失败处理： 未观察到的行为是发现，而非测试程序的失败。准确记录它们——它们表明协调模式未完全显现。

第 6 步：评估验收标准

6.1. 遍历场景中的每个验收标准。

6.2. 对每个标准分配一个判定：

PASS：标准明确满足，有可观察的证据
PARTIAL：标准部分满足（以 0.5 权重计入阈值）
FAIL：尽管有机会但标准未满足
BLOCKED：无法评估（前提条件失败、团队超时等）

6.3. 若场景包含基准真相数据，对照其验证报告的发现：

按类别计算准确率百分比
标记假阳性和假阴性

6.4. 若场景包含评分标准，对每个维度打 1-5 分并附简短理由。

6.5. 计算摘要指标：

验收：X/N 标准通过（PARTIAL 计为 0.5）
阈值：如果 >= 场景中定义的阈值则 PASS
评分总计：X/Y 分（如适用）

预期结果： 所有验收标准都有判定。摘要指标已计算。

失败处理： 若少于一半的标准可以评估（太多 BLOCKED），测试运行不确定。记录原因并建议修复前提条件后重新运行。

第 7 步：生成 RESULT.md

7.1. 使用场景观察协议中的记录模板创建 tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md。

7.2. 填写所有章节：

运行元数据（观察者、时间戳、持续时间）
附所有记录时间戳的阶段日志
角色涌现日志（用于自适应/团队测试）
验收标准结果表
评分标准表（如适用）
基准真相验证表（如适用）
关键观察（叙述性）
经验教训

7.3. 将团队的原始输出作为附录或同一结果目录中的独立文件（team-output.md）包含。

7.4. 在顶部添加摘要判决：

**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm

预期结果： 完整的 RESULT.md，所有章节已填写，有明确的判决。

失败处理： 若结果文件无法写入，将结果输出到 stdout 作为备用。评估数据永远不应丢失。

验证清单

常见问题

评估输出质量而非协调：此技能测试团队如何协调，而非任务输出是否完美。一个协调良好但只找到 7/9 个损坏引用的团队仍然展示了该模式。
过早注入范围变更：在角色分配清晰可见之前等待注入范围变更。过早意味着团队尚未分化，没有什么需要适应的。
混淆团队成员输出与团队输出：不透明团队应该呈现统一的输出。若你看到个别成员的报告，这是关于透明度的发现，而非测试基础设施问题。
精确的基准真相匹配：基准真相计数是近似值。评估发现是否在正确范围内，而非是否精确匹配。
忘记记录时间戳：时间戳对于测量阶段持续时间和适应速度至关重要。在事件发生时设置，而不是事后补记。

GitHub репозиторий

pjt222/agent-almanac

Путь: i18n/zh-CN/skills/test-team-coordination

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the test-team-coordination skill?

test-team-coordination is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform test-team-coordination-related tasks without extra prompting.

How do I install test-team-coordination?

Use the install commands on this page: add test-team-coordination to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does test-team-coordination belong to?

test-team-coordination is in the Testing category, tagged testing.

Is test-team-coordination free to use?

Yes. test-team-coordination is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Похожие навыки

evaluating-llms-harness

Тестирование

Этот навык Claude запускает lm-evaluation-harness для тестирования LLM на более чем 60 стандартизированных академических задачах, таких как MMLU и GSM8K. Он предназначен для разработчиков, чтобы сравнивать качество моделей, отслеживать прогресс обучения или сообщать академические результаты. Инструмент поддерживает различные бэкенды, включая модели HuggingFace и vLLM.

Просмотреть навык

cloudflare-cron-triggers

Тестирование

Этот навык предоставляет обширные знания по реализации Cloudflare Cron Triggers для планирования запуска Workers с помощью cron-выражений. Он охватывает настройку периодических задач, заданий технического обслуживания и автоматизированных рабочих процессов, а также решение распространенных проблем, таких как неверные cron-выражения и ошибки часовых поясов. Разработчики могут использовать его для настройки планировщиков обработчиков, тестирования cron-триггеров и интеграции с Workflows и Green Compute.

Просмотреть навык

webapp-testing

Тестирование

Этот навык Claude предоставляет инструментарий на базе Playwright для тестирования локальных веб-приложений с помощью Python-скриптов. Он позволяет проводить проверку фронтенда, отладку интерфейса, создание скриншотов и просмотр логов, одновременно управляя жизненным циклом сервера. Используйте его для задач автоматизации браузера, но запускайте скрипты напрямую, вместо чтения их исходного кода, чтобы избежать загрязнения контекста.

Просмотреть навык

finishing-a-development-branch

Тестирование

Этот навык помогает разработчикам завершать готовую работу, проверяя прохождение тестов и предлагая структурированные варианты интеграции. Он направляет рабочий процесс по слиянию, созданию пул-реквестов или очистке веток после завершения реализации. Используйте его, когда ваш код готов и протестирован, чтобы систематически завершать процесс разработки.

Просмотреть навык

test-team-coordination

О программе

Быстрая установка

Claude Code

Документация

测试团队协调

适用场景

输入

步骤

第 1 步：加载并验证测试场景

第 2 步：验证前提条件

第 3 步：加载协调模式标准

第 4 步：执行任务

第 5 步：评估模式行为

第 6 步：评估验收标准

第 7 步：生成 RESULT.md

验证清单

常见问题

相关技能

GitHub репозиторий

Frequently asked questions

What is the test-team-coordination skill?

How do I install test-team-coordination?

What category does test-team-coordination belong to?

Is test-team-coordination free to use?

Похожие навыки