test-team-coordination
About
This skill executes a test scenario against a team to observe coordination patterns, evaluate acceptance criteria, and generate a structured RESULT.md file. Use it to validate team coordination behaviors during realistic tasks, compare patterns across equivalent workloads, or establish baseline performance for team compositions. It's designed for testing and reviewing team-based coordination in development workflows.
Quick Install
Claude Code
Recommendednpx skills add pjt222/agent-almanac -a claude-code/plugin add https://github.com/pjt222/agent-almanacgit clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordinationCopy and paste this command in Claude Code to install this skill
Documentation
Probar Coordinación de Equipos
Ejecutar un escenario de prueba de tests/scenarios/teams/ contra el equipo
objetivo. Observar los comportamientos del patrón de coordinación, evaluar los
criterios de aceptación, puntuar el rúbrica y producir un RESULT.md en
tests/results/.
Cuándo Usar
- Validar que el patrón de coordinación de un equipo produce los comportamientos esperados
- Ejecutar una prueba estructurada después de modificar una definición de equipo o agente
- Comparar patrones de coordinación ejecutando el mismo escenario con diferentes equipos
- Establecer métricas de rendimiento base para una composición de equipo
- Pruebas de regresión después de añadir nuevos agentes o cambiar la membresía del equipo
Entradas
- Obligatorio: Ruta al archivo de escenario de prueba (p. ej.,
tests/scenarios/teams/test-opaque-team-cartographers-audit.md) - Opcional: Anulación del ID de ejecución (predeterminado:
YYYY-MM-DD-<target>-NNNgenerado automáticamente) - Opcional: Anulación del tamaño del equipo (predeterminado: del frontmatter del escenario)
- Opcional: Omitir cambio de alcance (predeterminado: false — inyectar cambio de alcance si está definido)
Procedimiento
Paso 1: Cargar y Validar el Escenario de Prueba
1.1. Leer el archivo de escenario de prueba especificado en la entrada.
1.2. Analizar el frontmatter YAML y extraer:
target— el equipo a probarcoordination-pattern— el patrón esperadoteam-size— número de miembros a instanciar- Tabla de criterios de aceptación
- Rúbrica de puntuación (si está presente)
- Datos de referencia (si están presentes)
1.3. Verificar que el archivo de escenario tiene todas las secciones obligatorias:
- Objective (Objetivo)
- Pre-conditions (Precondiciones)
- Task (Tarea, con subsección Primary Task)
- Expected Behaviors (Comportamientos Esperados)
- Acceptance Criteria (Criterios de Aceptación)
- Observation Protocol (Protocolo de Observación)
Esperado: El archivo de escenario se carga, analiza y contiene todas las secciones obligatorias.
En caso de fallo: Si el archivo falta o no puede analizarse, abortar con un mensaje de error que identifique el archivo faltante o la sección malformada. Si faltan secciones opcionales (Rubric, Ground Truth, Variants), anotar su ausencia y continuar.
Paso 2: Verificar las Precondiciones
2.1. Recorrer cada casilla de precondición en el escenario.
2.2. Para las verificaciones de existencia de archivos, usar Glob para verificar.
2.3. Para las verificaciones de recuento del registro, analizar el _registry.yml relevante y comparar total_* con los recuentos reales de archivos en disco.
2.4. Para las verificaciones de estado de rama/git, ejecutar git status --porcelain y git branch --show-current.
Esperado: Se satisfacen todas las precondiciones.
En caso de fallo: Si alguna precondición falla, registrarla como BLOQUEADA en los resultados. Decidir si continuar (precondición blanda) o abortar (precondición estricta como el archivo del equipo objetivo faltante). Documentar la decisión.
Paso 3: Cargar los Criterios del Patrón de Coordinación
3.1. Leer tests/_registry.yml y localizar la entrada coordination_patterns que coincide con el valor coordination-pattern del escenario.
3.2. Extraer la lista key_behaviors para este patrón.
3.3. Estos comportamientos se convierten en la lista de verificación de observación — cada uno debe observarse durante la ejecución y registrarse como observado/no observado.
Esperado: Los comportamientos clave del patrón cargados y listos para la observación.
En caso de fallo: Si el patrón de coordinación no está definido en el registro, usar la sección Expected Behaviors del escenario como única fuente de observación. Registrar una advertencia.
Paso 4: Ejecutar la Tarea
4.1. Crear el directorio de resultados: tests/results/YYYY-MM-DD-<target>-NNN/.
4.2. Registrar T0 (marca de tiempo de inicio de tarea).
4.3. Instanciar el equipo objetivo usando TeamCreate con el tamaño de equipo del escenario. Pasar el prompt de la Tarea Principal literalmente desde la sección Task del escenario.
4.4. Observar las fases de ejecución del equipo. Registrar marcas de tiempo para:
- T1: Evaluación de forma / descomposición de tareas completa
- T2: Asignaciones de roles visibles
4.5. Si el escenario define un Desencadenador de Cambio de Alcance y omitir-cambio-de-alcance es false:
- Esperar hasta que la Fase 2 (asignación de roles) sea visible
- Registrar T3 (marca de tiempo de inyección del cambio de alcance)
- Enviar el prompt del cambio de alcance al equipo mediante SendMessage
- Registrar T4 (cambio de alcance absorbido — ajuste de roles visible)
4.6. Continuar observando hasta que el equipo entregue su resultado.
- Registrar T5 (comienza la integración)
- Registrar T6 (informe final entregado)
4.7. Capturar el resultado completo del equipo.
Esperado: El equipo ejecuta la tarea a través de las fases de su patrón de coordinación. Las marcas de tiempo se registran para todas las transiciones. El cambio de alcance (si aplica) se inyecta y absorbe.
En caso de fallo: Si el equipo no produce resultados, registrar el punto de fallo y cualquier mensaje de error. Si el equipo se detiene, anotar la última fase observada y el tiempo de espera. Proceder a la evaluación con resultados parciales.
Paso 5: Evaluar los Comportamientos del Patrón
5.1. Para cada comportamiento clave del Paso 3, determinar si fue observado durante la ejecución:
- Observado: Evidencia clara en el resultado o la coordinación del equipo
- Parcial: Alguna evidencia pero incompleta o ambigua
- No observado: Sin evidencia
5.2. Para cada comportamiento específico de la tarea de la sección Expected Behaviors del escenario, aplicar la misma evaluación.
5.3. Registrar los hallazgos en el registro de observación.
Esperado: Todos o la mayoría de los comportamientos específicos del patrón y de la tarea son observados.
En caso de fallo: Los comportamientos no observados son hallazgos, no fallos del procedimiento de prueba. Registrarlos con precisión — indican que el patrón de coordinación no se manifestó completamente.
Paso 6: Evaluar los Criterios de Aceptación
6.1. Recorrer cada criterio de aceptación del escenario.
6.2. Para cada criterio, asignar una determinación:
- PASS: Criterio claramente cumplido con evidencia observable
- PARTIAL: Criterio parcialmente cumplido (cuenta hacia el umbral con peso 0.5)
- FAIL: Criterio no cumplido a pesar de la oportunidad
- BLOCKED: No se pudo evaluar (fallo de precondición, tiempo de espera del equipo, etc.)
6.3. Si el escenario incluye datos de Ground Truth, verificar los hallazgos reportados contra ellos:
- Calcular porcentajes de precisión por categoría
- Señalar los falsos positivos y los falsos negativos
6.4. Si el escenario incluye una Rúbrica de Puntuación, puntuar cada dimensión del 1 al 5 con breve justificación.
6.5. Calcular métricas de resumen:
- Aceptación: X/N criterios superados (PARTIAL cuenta como 0.5)
- Umbral: PASS si >= umbral definido en el escenario
- Total de rúbrica: X/Y puntos (si aplica)
Esperado: Todos los criterios de aceptación tienen una determinación. Se calculan las métricas de resumen.
En caso de fallo: Si menos de la mitad de los criterios pueden evaluarse (demasiados BLOCKED), la ejecución de la prueba es inconclusa. Documentar por qué y recomendar volver a ejecutar después de corregir las precondiciones.
Paso 7: Generar RESULT.md
7.1. Crear tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md usando la Plantilla de Registro del Protocolo de Observación del escenario.
7.2. Rellenar todas las secciones:
- Metadatos de ejecución (observador, marcas de tiempo, duración)
- Registro de fases con todas las marcas de tiempo registradas
- Registro de emergencia de roles (para pruebas adaptativas/de equipo)
- Tabla de resultados de criterios de aceptación
- Tabla de puntuaciones de rúbrica (si aplica)
- Tabla de verificación de ground truth (si aplica)
- Observaciones clave (narrativa)
- Lecciones aprendidas
7.3. Incluir el resultado completo del equipo como apéndice o en un archivo separado (team-output.md) en el mismo directorio de resultados.
7.4. Añadir un veredicto de resumen en la parte superior:
**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm
Esperado: RESULT.md completo con todas las secciones rellenadas y un veredicto claro.
En caso de fallo: Si el archivo de resultados no puede escribirse, imprimir los resultados en stdout como alternativa. Los datos de evaluación nunca deben perderse.
Validación
- Archivo de escenario de prueba cargado y todas las secciones obligatorias presentes
- Precondiciones verificadas (o documentadas como BLOCKED)
- Comportamientos clave del patrón de coordinación cargados desde el registro
- Equipo instanciado y tarea entregada
- Cambio de alcance inyectado en el momento correcto (si aplica)
- Todos los comportamientos específicos del patrón evaluados (observado/parcial/no observado)
- Todos los criterios de aceptación tienen una determinación (PASS/PARTIAL/FAIL/BLOCKED)
- Verificación de ground truth completada (si aplica)
- RESULT.md generado con todas las secciones rellenadas
- Veredicto de resumen calculado y registrado
Errores Comunes
- Evaluar la calidad del resultado en lugar de la coordinación: Esta habilidad prueba cómo coordina el equipo, no si el resultado de la tarea es perfecto. Un equipo que coordina bien pero encuentra solo 7/9 referencias rotas aún demuestra el patrón.
- Inyectar el cambio de alcance demasiado pronto: Esperar hasta que la asignación de roles sea claramente visible antes de inyectar el cambio de alcance. Demasiado pronto significa que el equipo aún no se ha diferenciado, por lo que no hay nada que adaptar.
- Confundir el resultado del miembro del equipo con el resultado del equipo: El equipo opaco debe presentar un resultado unificado. Si ve informes individuales de los miembros, eso es un hallazgo sobre la opacidad, no un problema de infraestructura de pruebas.
- Coincidencia exacta de ground truth: Los recuentos de ground truth son aproximados. Evaluar si los hallazgos están en el rango correcto, no si coinciden exactamente.
- Olvidar registrar las marcas de tiempo: Las marcas de tiempo son esenciales para medir las duraciones de las fases y la velocidad de adaptación. Establecerlas a medida que ocurren los eventos, no retroactivamente.
Habilidades Relacionadas
review-codebase— revisión profunda de base de código que complementa las pruebas a nivel de equiporeview-skill-format— valida el formato de habilidades individuales (esta habilidad valida la coordinación del equipo)create-team— crea definiciones de equipo que esta habilidad pruebaevolve-team— evoluciona las definiciones de equipo basándose en los hallazgos de las pruebastest-a2a-interop— patrón de pruebas similar para la conformidad del protocolo A2Aassess-form— la evaluación mórfica que usa internamente el líder del equipo opaco
GitHub Repository
Related Skills
evaluating-llms-harness
TestingThis Claude Skill runs the lm-evaluation-harness to benchmark LLMs across 60+ standardized academic tasks like MMLU and GSM8K. It's designed for developers to compare model quality, track training progress, or report academic results. The tool supports various backends including HuggingFace and vLLM models.
cloudflare-cron-triggers
TestingThis skill provides comprehensive knowledge for implementing Cloudflare Cron Triggers to schedule Workers using cron expressions. It covers setting up periodic tasks, maintenance jobs, and automated workflows while handling common issues like invalid cron expressions and timezone problems. Developers can use it for configuring scheduled handlers, testing cron triggers, and integrating with Workflows and Green Compute.
webapp-testing
TestingThis Claude Skill provides a Playwright-based toolkit for testing local web applications through Python scripts. It enables frontend verification, UI debugging, screenshot capture, and log viewing while managing server lifecycles. Use it for browser automation tasks but run scripts directly rather than reading their source code to avoid context pollution.
finishing-a-development-branch
TestingThis skill helps developers complete finished work by verifying tests pass and then presenting structured integration options. It guides the workflow for merging, creating PRs, or cleaning up branches after implementation is done. Use it when your code is ready and tested to systematically finalize the development process.
