SKILL·151A61

test-team-coordination

Name: test-team-coordination
Author: pjt222

pjt222

Updated 1 month ago

8 views

Testingtestingdesign

About

This skill executes a test scenario against a team to observe coordination patterns, evaluate acceptance criteria, and generate a structured RESULT.md file. Use it to validate team coordination behaviors during realistic tasks, compare patterns across equivalent workloads, or establish baseline performance for team compositions. It's designed for testing and reviewing team-based coordination in development workflows.

Quick Install

Claude Code

Recommended

Primary

npx skills add pjt222/agent-almanac -a claude-code

Plugin CommandAlternative

/plugin add https://github.com/pjt222/agent-almanac

Git CloneAlternative

git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordination

Copy and paste this command in Claude Code to install this skill

Documentation

Probar Coordinación de Equipos

Ejecutar un escenario de prueba de tests/scenarios/teams/ contra el equipo objetivo. Observar los comportamientos del patrón de coordinación, evaluar los criterios de aceptación, puntuar el rúbrica y producir un RESULT.md en tests/results/.

Cuándo Usar

Validar que el patrón de coordinación de un equipo produce los comportamientos esperados
Ejecutar una prueba estructurada después de modificar una definición de equipo o agente
Comparar patrones de coordinación ejecutando el mismo escenario con diferentes equipos
Establecer métricas de rendimiento base para una composición de equipo
Pruebas de regresión después de añadir nuevos agentes o cambiar la membresía del equipo

Entradas

Obligatorio: Ruta al archivo de escenario de prueba (p. ej., tests/scenarios/teams/test-opaque-team-cartographers-audit.md)
Opcional: Anulación del ID de ejecución (predeterminado: YYYY-MM-DD-<target>-NNN generado automáticamente)
Opcional: Anulación del tamaño del equipo (predeterminado: del frontmatter del escenario)
Opcional: Omitir cambio de alcance (predeterminado: false — inyectar cambio de alcance si está definido)

Procedimiento

Paso 1: Cargar y Validar el Escenario de Prueba

1.1. Leer el archivo de escenario de prueba especificado en la entrada.

1.2. Analizar el frontmatter YAML y extraer:

target — el equipo a probar
coordination-pattern — el patrón esperado
team-size — número de miembros a instanciar
Tabla de criterios de aceptación
Rúbrica de puntuación (si está presente)
Datos de referencia (si están presentes)

1.3. Verificar que el archivo de escenario tiene todas las secciones obligatorias:

Objective (Objetivo)
Pre-conditions (Precondiciones)
Task (Tarea, con subsección Primary Task)
Expected Behaviors (Comportamientos Esperados)
Acceptance Criteria (Criterios de Aceptación)
Observation Protocol (Protocolo de Observación)

Esperado: El archivo de escenario se carga, analiza y contiene todas las secciones obligatorias.

En caso de fallo: Si el archivo falta o no puede analizarse, abortar con un mensaje de error que identifique el archivo faltante o la sección malformada. Si faltan secciones opcionales (Rubric, Ground Truth, Variants), anotar su ausencia y continuar.

Paso 2: Verificar las Precondiciones

2.1. Recorrer cada casilla de precondición en el escenario.

2.2. Para las verificaciones de existencia de archivos, usar Glob para verificar.

2.3. Para las verificaciones de recuento del registro, analizar el _registry.yml relevante y comparar total_* con los recuentos reales de archivos en disco.

2.4. Para las verificaciones de estado de rama/git, ejecutar git status --porcelain y git branch --show-current.

Esperado: Se satisfacen todas las precondiciones.

En caso de fallo: Si alguna precondición falla, registrarla como BLOQUEADA en los resultados. Decidir si continuar (precondición blanda) o abortar (precondición estricta como el archivo del equipo objetivo faltante). Documentar la decisión.

Paso 3: Cargar los Criterios del Patrón de Coordinación

3.1. Leer tests/_registry.yml y localizar la entrada coordination_patterns que coincide con el valor coordination-pattern del escenario.

3.2. Extraer la lista key_behaviors para este patrón.

3.3. Estos comportamientos se convierten en la lista de verificación de observación — cada uno debe observarse durante la ejecución y registrarse como observado/no observado.

Esperado: Los comportamientos clave del patrón cargados y listos para la observación.

En caso de fallo: Si el patrón de coordinación no está definido en el registro, usar la sección Expected Behaviors del escenario como única fuente de observación. Registrar una advertencia.

Paso 4: Ejecutar la Tarea

4.1. Crear el directorio de resultados: tests/results/YYYY-MM-DD-<target>-NNN/.

4.2. Registrar T0 (marca de tiempo de inicio de tarea).

4.3. Instanciar el equipo objetivo usando TeamCreate con el tamaño de equipo del escenario. Pasar el prompt de la Tarea Principal literalmente desde la sección Task del escenario.

4.4. Observar las fases de ejecución del equipo. Registrar marcas de tiempo para:

T1: Evaluación de forma / descomposición de tareas completa
T2: Asignaciones de roles visibles

4.5. Si el escenario define un Desencadenador de Cambio de Alcance y omitir-cambio-de-alcance es false:

Esperar hasta que la Fase 2 (asignación de roles) sea visible
Registrar T3 (marca de tiempo de inyección del cambio de alcance)
Enviar el prompt del cambio de alcance al equipo mediante SendMessage
Registrar T4 (cambio de alcance absorbido — ajuste de roles visible)

4.6. Continuar observando hasta que el equipo entregue su resultado.

Registrar T5 (comienza la integración)
Registrar T6 (informe final entregado)

4.7. Capturar el resultado completo del equipo.

Esperado: El equipo ejecuta la tarea a través de las fases de su patrón de coordinación. Las marcas de tiempo se registran para todas las transiciones. El cambio de alcance (si aplica) se inyecta y absorbe.

En caso de fallo: Si el equipo no produce resultados, registrar el punto de fallo y cualquier mensaje de error. Si el equipo se detiene, anotar la última fase observada y el tiempo de espera. Proceder a la evaluación con resultados parciales.

Paso 5: Evaluar los Comportamientos del Patrón

5.1. Para cada comportamiento clave del Paso 3, determinar si fue observado durante la ejecución:

Observado: Evidencia clara en el resultado o la coordinación del equipo
Parcial: Alguna evidencia pero incompleta o ambigua
No observado: Sin evidencia

5.2. Para cada comportamiento específico de la tarea de la sección Expected Behaviors del escenario, aplicar la misma evaluación.

5.3. Registrar los hallazgos en el registro de observación.

Esperado: Todos o la mayoría de los comportamientos específicos del patrón y de la tarea son observados.

En caso de fallo: Los comportamientos no observados son hallazgos, no fallos del procedimiento de prueba. Registrarlos con precisión — indican que el patrón de coordinación no se manifestó completamente.

Paso 6: Evaluar los Criterios de Aceptación

6.1. Recorrer cada criterio de aceptación del escenario.

6.2. Para cada criterio, asignar una determinación:

PASS: Criterio claramente cumplido con evidencia observable
PARTIAL: Criterio parcialmente cumplido (cuenta hacia el umbral con peso 0.5)
FAIL: Criterio no cumplido a pesar de la oportunidad
BLOCKED: No se pudo evaluar (fallo de precondición, tiempo de espera del equipo, etc.)

6.3. Si el escenario incluye datos de Ground Truth, verificar los hallazgos reportados contra ellos:

Calcular porcentajes de precisión por categoría
Señalar los falsos positivos y los falsos negativos

6.4. Si el escenario incluye una Rúbrica de Puntuación, puntuar cada dimensión del 1 al 5 con breve justificación.

6.5. Calcular métricas de resumen:

Aceptación: X/N criterios superados (PARTIAL cuenta como 0.5)
Umbral: PASS si >= umbral definido en el escenario
Total de rúbrica: X/Y puntos (si aplica)

Esperado: Todos los criterios de aceptación tienen una determinación. Se calculan las métricas de resumen.

En caso de fallo: Si menos de la mitad de los criterios pueden evaluarse (demasiados BLOCKED), la ejecución de la prueba es inconclusa. Documentar por qué y recomendar volver a ejecutar después de corregir las precondiciones.

Paso 7: Generar RESULT.md

7.1. Crear tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md usando la Plantilla de Registro del Protocolo de Observación del escenario.

7.2. Rellenar todas las secciones:

Metadatos de ejecución (observador, marcas de tiempo, duración)
Registro de fases con todas las marcas de tiempo registradas
Registro de emergencia de roles (para pruebas adaptativas/de equipo)
Tabla de resultados de criterios de aceptación
Tabla de puntuaciones de rúbrica (si aplica)
Tabla de verificación de ground truth (si aplica)
Observaciones clave (narrativa)
Lecciones aprendidas

7.3. Incluir el resultado completo del equipo como apéndice o en un archivo separado (team-output.md) en el mismo directorio de resultados.

7.4. Añadir un veredicto de resumen en la parte superior:

**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm

Esperado: RESULT.md completo con todas las secciones rellenadas y un veredicto claro.

En caso de fallo: Si el archivo de resultados no puede escribirse, imprimir los resultados en stdout como alternativa. Los datos de evaluación nunca deben perderse.

Validación

Errores Comunes

Evaluar la calidad del resultado en lugar de la coordinación: Esta habilidad prueba cómo coordina el equipo, no si el resultado de la tarea es perfecto. Un equipo que coordina bien pero encuentra solo 7/9 referencias rotas aún demuestra el patrón.
Inyectar el cambio de alcance demasiado pronto: Esperar hasta que la asignación de roles sea claramente visible antes de inyectar el cambio de alcance. Demasiado pronto significa que el equipo aún no se ha diferenciado, por lo que no hay nada que adaptar.
Confundir el resultado del miembro del equipo con el resultado del equipo: El equipo opaco debe presentar un resultado unificado. Si ve informes individuales de los miembros, eso es un hallazgo sobre la opacidad, no un problema de infraestructura de pruebas.
Coincidencia exacta de ground truth: Los recuentos de ground truth son aproximados. Evaluar si los hallazgos están en el rango correcto, no si coinciden exactamente.
Olvidar registrar las marcas de tiempo: Las marcas de tiempo son esenciales para medir las duraciones de las fases y la velocidad de adaptación. Establecerlas a medida que ocurren los eventos, no retroactivamente.

Habilidades Relacionadas

review-codebase — revisión profunda de base de código que complementa las pruebas a nivel de equipo
review-skill-format — valida el formato de habilidades individuales (esta habilidad valida la coordinación del equipo)
create-team — crea definiciones de equipo que esta habilidad prueba
evolve-team — evoluciona las definiciones de equipo basándose en los hallazgos de las pruebas
test-a2a-interop — patrón de pruebas similar para la conformidad del protocolo A2A
assess-form — la evaluación mórfica que usa internamente el líder del equipo opaco

GitHub Repository

pjt222/agent-almanac

Path: i18n/es/skills/test-team-coordination

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the test-team-coordination skill?

test-team-coordination is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform test-team-coordination-related tasks without extra prompting.

How do I install test-team-coordination?

Use the install commands on this page: add test-team-coordination to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does test-team-coordination belong to?

test-team-coordination is in the Testing category, tagged testing and design.

Is test-team-coordination free to use?

Yes. test-team-coordination is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Related Skills

evaluating-llms-harness

Testing

This Claude Skill runs the lm-evaluation-harness to benchmark LLMs across 60+ standardized academic tasks like MMLU and GSM8K. It's designed for developers to compare model quality, track training progress, or report academic results. The tool supports various backends including HuggingFace and vLLM models.

View skill

cloudflare-cron-triggers

Testing

This skill provides comprehensive knowledge for implementing Cloudflare Cron Triggers to schedule Workers using cron expressions. It covers setting up periodic tasks, maintenance jobs, and automated workflows while handling common issues like invalid cron expressions and timezone problems. Developers can use it for configuring scheduled handlers, testing cron triggers, and integrating with Workflows and Green Compute.

View skill

webapp-testing

Testing

This Claude Skill provides a Playwright-based toolkit for testing local web applications through Python scripts. It enables frontend verification, UI debugging, screenshot capture, and log viewing while managing server lifecycles. Use it for browser automation tasks but run scripts directly rather than reading their source code to avoid context pollution.

View skill

finishing-a-development-branch

Testing

This skill helps developers complete finished work by verifying tests pass and then presenting structured integration options. It guides the workflow for merging, creating PRs, or cleaning up branches after implementation is done. Use it when your code is ready and tested to systematically finalize the development process.

View skill