MCP HubMCP Hub
Вернуться к навыкам

test-team-coordination

pjt222
Обновлено 6 days ago
13 просмотров
17
2
17
Посмотреть на GitHub
Метаaitestingdesign

О программе

Этот навык выполняет тестовые сценарии для команд ИИ-агентов, чтобы проверить и сравнить их модели координации. Он отслеживает поведение, оценивает критерии приемки и формирует структурированные отчёты в файлах RESULT.md. Используйте его для проверки производительности команд, сравнения стратегий координации или установления базовых метрик для различных составов команд.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add pjt222/agent-almanac -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/pjt222/agent-almanac
Git клонированиеАльтернативный
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordination

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

測試團隊協調

對目標團隊執行 tests/scenarios/teams/ 之測試情境。觀察協調模式行為、評估接受準則、評分準則表,並於 tests/results/ 產出 RESULT.md

適用時機

  • 驗證團隊協調模式產生預期行為
  • 修改團隊定義或代理後執結構化測試
  • 以同情境跑不同團隊以比較協調模式
  • 為團隊組成建立基線效能指標
  • 加新代理或變團隊成員後做回歸測試

輸入

  • 必要:測試情境檔之路徑(如 tests/scenarios/teams/test-opaque-team-cartographers-audit.md
  • 選擇性:執行 ID 覆寫(預設:YYYY-MM-DD-<target>-NNN 自動產生)
  • 選擇性:團隊大小覆寫(預設:自情境前置設定)
  • 選擇性:跳過範圍變化(預設:false——若已定義則注入範圍變化)

步驟

步驟一:載入並驗證測試情境

1.1. 讀輸入指定之測試情境檔。

1.2. 解析 YAML 前置設定並萃:

  • target — 待測之團隊
  • coordination-pattern — 預期模式
  • team-size — 待生成之成員數
  • 接受準則表
  • 評分準則表(如有)
  • 真實值資料(如有)

1.3. 驗情境檔含所有必要節:

  • Objective
  • Pre-conditions
  • Task(含 Primary Task 子節)
  • Expected Behaviors
  • Acceptance Criteria
  • Observation Protocol

預期: 情境檔載入、解析且含所有必要節。

失敗時: 若檔缺或不可解析,以辨缺檔或畸形節之錯訊息中止。若選擇性節(Rubric、Ground Truth、Variants)缺,註其缺並續。

步驟二:驗證先決條件

2.1. 走過情境之每先決條件勾選。

2.2. 對檔存在檢查,用 Glob 驗。

2.3. 對註冊表計數檢查,解析相關 _registry.yml 並比對 total_* 與磁碟上實際檔數。

2.4. 對分支/git 狀態檢查,跑 git status --porcelaingit branch --show-current

預期: 所有先決條件已滿足。

失敗時: 若任一先決條件失敗,於結果中記為 BLOCKED。決定是否續(軟先決)或中止(硬先決如缺目標團隊檔)。記錄該決定。

步驟三:載入協調模式準則

3.1. 讀 tests/_registry.yml 並定位匹配情境之 coordination-pattern 值之 coordination_patterns 條目。

3.2. 萃此模式之 key_behaviors 列表。

3.3. 此等行為成觀察清單——執行期間每項皆須觀察並記為已觀察/未觀察。

預期: 模式關鍵行為已載且備觀察。

失敗時: 若協調模式未於註冊表中定義,用情境之 Expected Behaviors 節為唯一觀察源。記警告。

步驟四:執行任務

4.1. 建結果目錄:tests/results/YYYY-MM-DD-<target>-NNN/

4.2. 記 T0(任務開始時戳)。

4.3. 自 teams/<target>.md 讀目標團隊定義,萃 CONFIG 區塊,並啟動團隊:以團隊名叫 TeamCreate、用每成員之 subagent_type 生成隊友、自 CONFIG tasks 列表建任務。用情境之 team-size。逐字傳情境 Task 節之 Primary Task 提示。

4.4. 觀察團隊執行階段。記時戳:

  • T1:型態評估/任務分解完成
  • T2:角色分配可見

4.5. 若情境定義 Scope Change Trigger 且 skip-scope-change 為 false:

  • 待 Phase 2(角色分配)可見
  • 記 T3(範圍變化注入時戳)
  • 透過 SendMessage 傳範圍變化提示予團隊
  • 記 T4(範圍變化已吸收——角色調整可見)

4.6. 續觀察直至團隊遞輸出。

  • 記 T5(整合始)
  • 記 T6(最終報告遞)

4.7. 捕團隊之完整輸出。

預期: 團隊經其協調模式階段執任務。所有轉換皆記時戳。範圍變化(如適用)已注入並吸收。

失敗時: 若團隊未產輸出,記失敗點及任何錯訊息。若團隊停滯,註最後觀察階段與逾時。以部分結果進評估。

步驟五:評估模式行為

5.1. 對步驟三之每關鍵行為,定其於執行期間是否被觀察:

  • Observed:團隊輸出或協調中之清晰證據
  • Partial:某證據但不完整或含混
  • Not observed:無證據

5.2. 對情境之 Expected Behaviors 節之每任務專屬行為,套同評估。

5.3. 將發現記入觀察日誌。

預期: 所有或多數模式專屬與任務專屬行為被觀察。

失敗時: 未觀察之行為為發現,非測試程序之失敗。準確記之——其示協調模式未完全顯現。

步驟六:評估接受準則

6.1. 走過情境之每接受準則。

6.2. 對每準則,賦定:

  • PASS:準則明確達成且具可觀察證據
  • PARTIAL:準則部分達成(以 0.5 權重計入閾值)
  • FAIL:雖有機會準則未達
  • BLOCKED:無法評估(先決失敗、團隊逾時等)

6.3. 若情境含 Ground Truth 資料,對之驗報告之發現:

  • 計算每類別之準確率
  • 標出偽陽與偽陰

6.4. 若情境含評分準則表,每維度 1-5 評分附簡述。

6.5. 計算摘要指標:

  • Acceptance:X/N 準則通過(PARTIAL 計 0.5)
  • Threshold:若 >= 情境定義之閾值則 PASS
  • Rubric total:X/Y 點(如適用)

預期: 所有接受準則皆有定。摘要指標已計算。

失敗時: 若可評估之準則少於半(過多 BLOCKED),測試執行不確。記其因並建議修先決後重執。

步驟七:產生 RESULT.md

7.1. 用情境 Observation Protocol 之記錄模板,建 tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md

7.2. 填所有節:

  • 執行後設資料(觀察者、時戳、時長)
  • 含所有所記時戳之階段日誌
  • 角色湧現日誌(對適應/團隊測試)
  • 接受準則結果表
  • 評分準則表(如適用)
  • 真實值驗證表(如適用)
  • 關鍵觀察(敘事)
  • 學習教訓

7.3. 將團隊原始輸出含為附錄或於同結果目錄之分離檔(team-output.md)。

7.4. 於頂加摘要結論:

**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm

預期: 完整 RESULT.md 含所有節已填且結論清晰。

失敗時: 若結果檔無法寫,將結果輸出至 stdout 為退路。評估資料絕不應失。

驗證

  • 測試情境檔已載且所有必要節在
  • 先決條件已驗(或記為 BLOCKED)
  • 協調模式關鍵行為已自註冊表載
  • 團隊已生成且任務已遞
  • 範圍變化於正確時機注入(如適用)
  • 所有模式專屬行為已評估(已觀察/部分/未觀察)
  • 所有接受準則皆有定(PASS/PARTIAL/FAIL/BLOCKED)
  • 真實值驗證已完成(如適用)
  • RESULT.md 已產且所有節已填
  • 摘要結論已計算且記錄

常見陷阱

  • 評估輸出品質而非協調:此技能測團隊如何協調,非任務輸出是否完美。協調良好但僅找 7/9 損壞參考之團隊仍展現該模式。
  • 過早注入範圍變化:待角色分配清晰可見再注入範圍變化。過早則團隊尚未分化,故無物可調。
  • 將團隊成員輸出與團隊輸出混:不透明團隊應呈統一輸出。若見個別成員報告,此乃關於不透明性之發現,非測試基礎建設問題。
  • 真實值精確匹配:真實值計數為近似。評估發現是否在合理範圍內,非是否精確匹配。
  • 遺忘記時戳:時戳對量階段時長與適應速度至關。事件發生時即設之,非追溯設。

相關技能

  • review-codebase — 深層代碼庫審查,補團隊層測試
  • review-skill-format — 驗個別技能格式(此技能驗團隊協調)
  • create-team — 建此技能所測之團隊定義
  • evolve-team — 依測試發現演化團隊定義
  • test-a2a-interop — A2A 協定符合性之相似測試模式
  • assess-form — 不透明團隊領導內部所用之形態評估

GitHub репозиторий

pjt222/agent-almanac
Путь: i18n/wenyan-lite/skills/test-team-coordination
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

Похожие навыки

content-collections

Мета

Этот навык предоставляет проверенную в продакшене настройку для Content Collections — TypeScript-ориентированного инструмента, который преобразует файлы Markdown/MDX в типобезопасные коллекции данных с валидацией Zod. Используйте его при создании блогов, сайтов документации или контентных приложений на Vite + React для обеспечения типобезопасности и автоматической проверки содержимого. Он охватывает всё: от настройки плагина Vite и компиляции MDX до оптимизации развертывания и валидации схем.

Просмотреть навык

polymarket

Мета

Этот навык позволяет разработчикам создавать приложения на платформе прогнозных рынков Polymarket, включая интеграцию с API для торговли и получения рыночных данных. Он также обеспечивает потоковую передачу данных в реальном времени через WebSocket для отслеживания текущих сделок и рыночной активности. Используйте его для реализации торговых стратегий или создания инструментов, обрабатывающих обновления рынка в реальном времени.

Просмотреть навык

creating-opencode-plugins

Мета

Этот навык помогает разработчикам создавать плагины OpenCode, которые подключаются к более чем 25 типам событий, таким как команды, файлы и операции LSP. Он предоставляет структуру плагина, спецификации API событий и шаблоны реализации для модулей на JavaScript/TypeScript. Используйте его, когда вам нужно перехватывать, отслеживать или расширять жизненный цикл ассистента OpenCode AI с помощью пользовательской событийно-ориентированной логики.

Просмотреть навык

sglang

Мета

SGLang — это высокопроизводительный фреймворк для обслуживания больших языковых моделей (LLM), специализирующийся на быстрой структурированной генерации JSON, regex и рабочих процессов агентов с использованием кэширования префиксов RadixAttention. Он обеспечивает значительно более высокую скорость вывода, особенно для задач с повторяющимися префиксами, что делает его идеальным для сложных структурированных результатов и многократных диалогов. Выбирайте SGLang вместо альтернатив, таких как vLLM, когда вам требуется ограниченное декодирование или вы создаете приложения с интенсивным совместным использованием префиксов.

Просмотреть навык