返回技能列表

test-team-coordination

pjt222
更新于 2 days ago
1 次查看
17
2
17
在 GitHub 上查看
aitestingdesign

关于

This skill executes test scenarios against AI agent teams to validate and compare their coordination patterns. It observes team behaviors, evaluates results against acceptance criteria, and generates structured RESULT.md reports. Use it for testing team compositions, comparing coordination approaches, or establishing performance baselines during development.

快速安装

Claude Code

推荐
主要方式
npx skills add pjt222/agent-almanac -a claude-code
插件命令备选方式
/plugin add https://github.com/pjt222/agent-almanac
Git 克隆备选方式
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordination

在 Claude Code 中复制并粘贴此命令以安装该技能

技能文档

試團之協

tests/scenarios/teams/ 中之試境於目團。觀協模之行,評受準,計分,於 tests/results/RESULT.md

用時

  • 驗團之協模生期之行乃用
  • 改團定或代理後行構之試乃用
  • 同境異團行以比協模乃用
  • 立團合之基線性能乃用
  • 加新代理或變團員後回試乃用

  • 必要:試境之文之路(如 tests/scenarios/teams/test-opaque-team-cartographers-audit.md
  • 可選:行 ID 蓋(默:YYYY-MM-DD-<target>-NNN 自生)
  • 可選:團之大蓋(默:自境之 frontmatter)
  • 可選:略範變(默:否——若定則注範變)

第一步:載而驗試境

1.1. 讀入所定之試境文。

1.2. 析 YAML frontmatter,提:

  • target — 所試之團
  • coordination-pattern — 期之模
  • team-size — 所生員之數
  • 受準之表
  • 計分之鑑(若有)
  • 真之資(若有)

1.3. 驗境文有諸必之節:

  • Objective
  • Pre-conditions
  • Task(含 Primary Task 子節)
  • Expected Behaviors
  • Acceptance Criteria
  • Observation Protocol

得:境文載、析、含諸必節。

敗則:若文缺或不可析,止而陳缺文或壞節之誤辭。若可選之節(鑑、真資、變)缺,注其缺而續。

第二步:驗前條

2.1. 過境之各前條核。

2.2. 為文存之察,用 Glob 驗之。

2.3. 為註冊計之察,析相關 _registry.yml 而比 total_* 與盤上實計。

2.4. 為枝/git 態之察,行 git status --porcelaingit branch --show-current

得:諸前條皆滿。

敗則:若前條敗,記為 BLOCKED 於果。決續(軟前條)或止(硬前條,如缺目團之文)。書其決。

第三步:載協模之準

3.1. 讀 tests/_registry.yml 而尋與境之 coordination-pattern 值合之 coordination_patterns 條。

3.2. 提此模之 key_behaviors 列。

3.3. 此諸行為觀之核——各於行中察而記為觀/不觀。

得:模之要行已載,備為觀。

敗則:若協模未定於註冊,用境之 Expected Behaviors 為唯一觀源。記警。

第四步:行任務

4.1. 立果目:tests/results/YYYY-MM-DD-<target>-NNN/

4.2. 記 T0(任務始之時)。

4.3. 自 teams/<target>.md 讀目團之定,提 CONFIG 塊,啟團:呼 TeamCreate 與團名,以各員之 subagent_type 生員,自 CONFIG 之 tasks 列立任務。用境之 team-size。傳境 Task 節之 Primary Task 提詞如字。

4.4. 觀團行之諸階。記時於:

  • T1:形察/任務分解成
  • T2:角賦可見

4.5. 若境定範變之觸而 skip-scope-change 為否:

  • 候至第二階(角賦)可見
  • 記 T3(範變注之時)
  • 經 SendMessage 發範變提於團
  • 記 T4(範變吸——角調可見)

4.6. 續觀至團獻其出。

  • 記 T5(合始)
  • 記 T6(終報獻)

4.7. 捕團之全出。

得:團行任務過協模諸階。諸轉之時記。範變(若適)注而吸。

敗則:若團不出,記敗點與諸誤辭。若團停,注末觀之階與超時。以部分果至評。

第五步:評模行

5.1. 為第三步之各要行,定行中是否觀之:

  • :明證於團之出或協
  • :有證而不全或歧
  • 不觀:無證

5.2. 為境 Expected Behaviors 之各任務特行,施同評。

5.3. 記發現於觀日。

得:諸模特與任務特之行皆或多觀。

敗則:未觀之行為發現,非試法之敗。記其準——示協模未全現。

第六步:評受準

6.1. 過境之各受準。

6.2. 為各準,賦定:

  • PASS:準明達,有可觀之證
  • PARTIAL:準部達(計入閾於 0.5 權)
  • FAIL:有機而不達
  • BLOCKED:不可評(前條敗、團超時等)

6.3. 若境含真資,驗報之發現於之:

  • 算各類之準率
  • 標誤陽與誤陰

6.4. 若境含計鑑,每維計 1-5 並簡證。

6.5. 算總計:

  • 受:X/N 準過(PARTIAL 計為 0.5)
  • 閾:若 >= 境定閾則 PASS
  • 鑑總:X/Y 點(若適)

得:諸受準有定。總計已算。

敗則:若評之準少於半(過多 BLOCKED),試行不決。書其因而薦修前條後再行。

第七步:生 RESULT.md

7.1. 用境 Observation Protocol 之記錄模板,立 tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md

7.2. 填諸節:

  • 行之資(觀者、時、長)
  • 階之日,含諸記時
  • 角現之日(為適/團試)
  • 受準之果表
  • 鑑分表(若適)
  • 真資驗表(若適)
  • 要觀(敘)
  • 所學

7.3. 含團之生出為附錄或於同果目之分文(team-output.md)。

7.4. 於頂加總判:

**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm

得:完之 RESULT.md,諸節皆填,明判已陳。

敗則:若果文不可書,出果於 stdout 為退。評之資不當失。

  • 試境文已載,諸必節已現
  • 前條已驗(或書為 BLOCKED)
  • 協模之要行已自註冊載
  • 團已生而任務已獻
  • 範變於正時注(若適)
  • 諸模特行已評(觀/部/不觀)
  • 諸受準有定(PASS/PARTIAL/FAIL/BLOCKED)
  • 真資驗已成(若適)
  • RESULT.md 已生,諸節皆填
  • 總判已算而記

  • 評出之質而非協:此技試團如何協,非任務之出是否完。協善而唯尋 7/9 斷引之團仍示模。
  • 範變注太早:候至角賦明可見而後注範變。太早則團未分,無可適。
  • 混員出於團出:不透之團當獻一致之出。若見個員報,乃透之發現,非試基之患。
  • 真資精匹:真之計近。評發現是否近,非是否精合。
  • 忘記時:時為量階長與適速所要。事生時設之,非追加。

  • review-codebase — 深碼審補團層之試
  • review-skill-format — 驗個技之格(此技驗團之協)
  • create-team — 立此技所試之團定
  • evolve-team — 依試發現化團定
  • test-a2a-interop — 為 A2A 協合規之相試模
  • assess-form — 不透之團之領內用之形察

GitHub 仓库

pjt222/agent-almanac
路径: i18n/wenyan/skills/test-team-coordination
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

相关推荐技能

content-collections

Content Collections 是一个 TypeScript 优先的构建工具,可将本地 Markdown/MDX 文件转换为类型安全的数据集合。它专为构建博客、文档站和内容密集型 Vite+React 应用而设计,提供基于 Zod 的自动模式验证。该工具涵盖从 Vite 插件配置、MDX 编译到生产环境部署的完整工作流。

查看技能

polymarket

这个Claude Skill为开发者提供完整的Polymarket预测市场开发支持,涵盖API调用、交易执行和市场数据分析。关键特性包括实时WebSocket数据流,可监控实时交易、订单和市场动态。开发者可用它构建预测市场应用、实施交易策略并集成实时市场预测功能。

查看技能

creating-opencode-plugins

该Skill帮助开发者创建OpenCode插件,用于接入命令、文件、LSP等25+种事件。它提供了插件结构、事件API规范和JavaScript/TypeScript实现模式,适合需要拦截操作、扩展功能或自定义事件处理的场景。开发者可通过它快速构建响应式模块来增强OpenCode AI助手的能力。

查看技能

sglang

SGLang是一个专为LLM设计的高性能推理框架,特别适用于需要结构化输出的场景。它通过RadixAttention前缀缓存技术,在处理JSON、正则表达式、工具调用等具有重复前缀的复杂工作流时,能实现极速生成。如果你正在构建智能体或多轮对话系统,并追求远超vLLM的推理性能,SGLang是理想选择。

查看技能