MCP HubMCP Hub
스킬 목록으로 돌아가기

test-team-coordination

pjt222
업데이트됨 2 days ago
17
2
17
GitHub에서 보기
테스팅testingdesign

정보

이 스킬은 팀을 대상으로 테스트 시나리오를 실행하여 협업 패턴을 관찰하고, 수용 기준을 평가하며, 구조화된 RESULT.md 파일을 생성합니다. 실제 작업 중 팀 협업 행동을 검증하거나, 동등한 작업 부하 간 패턴을 비교하거나, 팀 구성의 기준 성능을 설정하는 데 사용하세요. 이는 개발 워크플로우에서 팀 기반 협업을 테스트하고 검토하기 위해 설계되었습니다.

빠른 설치

Claude Code

추천
기본
npx skills add pjt222/agent-almanac -a claude-code
플러그인 명령대체
/plugin add https://github.com/pjt222/agent-almanac
Git 클론대체
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/test-team-coordination

Claude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요

문서

Probar Coordinación de Equipos

Ejecutar un escenario de prueba de tests/scenarios/teams/ contra el equipo objetivo. Observar los comportamientos del patrón de coordinación, evaluar los criterios de aceptación, puntuar el rúbrica y producir un RESULT.md en tests/results/.

Cuándo Usar

  • Validar que el patrón de coordinación de un equipo produce los comportamientos esperados
  • Ejecutar una prueba estructurada después de modificar una definición de equipo o agente
  • Comparar patrones de coordinación ejecutando el mismo escenario con diferentes equipos
  • Establecer métricas de rendimiento base para una composición de equipo
  • Pruebas de regresión después de añadir nuevos agentes o cambiar la membresía del equipo

Entradas

  • Obligatorio: Ruta al archivo de escenario de prueba (p. ej., tests/scenarios/teams/test-opaque-team-cartographers-audit.md)
  • Opcional: Anulación del ID de ejecución (predeterminado: YYYY-MM-DD-<target>-NNN generado automáticamente)
  • Opcional: Anulación del tamaño del equipo (predeterminado: del frontmatter del escenario)
  • Opcional: Omitir cambio de alcance (predeterminado: false — inyectar cambio de alcance si está definido)

Procedimiento

Paso 1: Cargar y Validar el Escenario de Prueba

1.1. Leer el archivo de escenario de prueba especificado en la entrada.

1.2. Analizar el frontmatter YAML y extraer:

  • target — el equipo a probar
  • coordination-pattern — el patrón esperado
  • team-size — número de miembros a instanciar
  • Tabla de criterios de aceptación
  • Rúbrica de puntuación (si está presente)
  • Datos de referencia (si están presentes)

1.3. Verificar que el archivo de escenario tiene todas las secciones obligatorias:

  • Objective (Objetivo)
  • Pre-conditions (Precondiciones)
  • Task (Tarea, con subsección Primary Task)
  • Expected Behaviors (Comportamientos Esperados)
  • Acceptance Criteria (Criterios de Aceptación)
  • Observation Protocol (Protocolo de Observación)

Esperado: El archivo de escenario se carga, analiza y contiene todas las secciones obligatorias.

En caso de fallo: Si el archivo falta o no puede analizarse, abortar con un mensaje de error que identifique el archivo faltante o la sección malformada. Si faltan secciones opcionales (Rubric, Ground Truth, Variants), anotar su ausencia y continuar.

Paso 2: Verificar las Precondiciones

2.1. Recorrer cada casilla de precondición en el escenario.

2.2. Para las verificaciones de existencia de archivos, usar Glob para verificar.

2.3. Para las verificaciones de recuento del registro, analizar el _registry.yml relevante y comparar total_* con los recuentos reales de archivos en disco.

2.4. Para las verificaciones de estado de rama/git, ejecutar git status --porcelain y git branch --show-current.

Esperado: Se satisfacen todas las precondiciones.

En caso de fallo: Si alguna precondición falla, registrarla como BLOQUEADA en los resultados. Decidir si continuar (precondición blanda) o abortar (precondición estricta como el archivo del equipo objetivo faltante). Documentar la decisión.

Paso 3: Cargar los Criterios del Patrón de Coordinación

3.1. Leer tests/_registry.yml y localizar la entrada coordination_patterns que coincide con el valor coordination-pattern del escenario.

3.2. Extraer la lista key_behaviors para este patrón.

3.3. Estos comportamientos se convierten en la lista de verificación de observación — cada uno debe observarse durante la ejecución y registrarse como observado/no observado.

Esperado: Los comportamientos clave del patrón cargados y listos para la observación.

En caso de fallo: Si el patrón de coordinación no está definido en el registro, usar la sección Expected Behaviors del escenario como única fuente de observación. Registrar una advertencia.

Paso 4: Ejecutar la Tarea

4.1. Crear el directorio de resultados: tests/results/YYYY-MM-DD-<target>-NNN/.

4.2. Registrar T0 (marca de tiempo de inicio de tarea).

4.3. Instanciar el equipo objetivo usando TeamCreate con el tamaño de equipo del escenario. Pasar el prompt de la Tarea Principal literalmente desde la sección Task del escenario.

4.4. Observar las fases de ejecución del equipo. Registrar marcas de tiempo para:

  • T1: Evaluación de forma / descomposición de tareas completa
  • T2: Asignaciones de roles visibles

4.5. Si el escenario define un Desencadenador de Cambio de Alcance y omitir-cambio-de-alcance es false:

  • Esperar hasta que la Fase 2 (asignación de roles) sea visible
  • Registrar T3 (marca de tiempo de inyección del cambio de alcance)
  • Enviar el prompt del cambio de alcance al equipo mediante SendMessage
  • Registrar T4 (cambio de alcance absorbido — ajuste de roles visible)

4.6. Continuar observando hasta que el equipo entregue su resultado.

  • Registrar T5 (comienza la integración)
  • Registrar T6 (informe final entregado)

4.7. Capturar el resultado completo del equipo.

Esperado: El equipo ejecuta la tarea a través de las fases de su patrón de coordinación. Las marcas de tiempo se registran para todas las transiciones. El cambio de alcance (si aplica) se inyecta y absorbe.

En caso de fallo: Si el equipo no produce resultados, registrar el punto de fallo y cualquier mensaje de error. Si el equipo se detiene, anotar la última fase observada y el tiempo de espera. Proceder a la evaluación con resultados parciales.

Paso 5: Evaluar los Comportamientos del Patrón

5.1. Para cada comportamiento clave del Paso 3, determinar si fue observado durante la ejecución:

  • Observado: Evidencia clara en el resultado o la coordinación del equipo
  • Parcial: Alguna evidencia pero incompleta o ambigua
  • No observado: Sin evidencia

5.2. Para cada comportamiento específico de la tarea de la sección Expected Behaviors del escenario, aplicar la misma evaluación.

5.3. Registrar los hallazgos en el registro de observación.

Esperado: Todos o la mayoría de los comportamientos específicos del patrón y de la tarea son observados.

En caso de fallo: Los comportamientos no observados son hallazgos, no fallos del procedimiento de prueba. Registrarlos con precisión — indican que el patrón de coordinación no se manifestó completamente.

Paso 6: Evaluar los Criterios de Aceptación

6.1. Recorrer cada criterio de aceptación del escenario.

6.2. Para cada criterio, asignar una determinación:

  • PASS: Criterio claramente cumplido con evidencia observable
  • PARTIAL: Criterio parcialmente cumplido (cuenta hacia el umbral con peso 0.5)
  • FAIL: Criterio no cumplido a pesar de la oportunidad
  • BLOCKED: No se pudo evaluar (fallo de precondición, tiempo de espera del equipo, etc.)

6.3. Si el escenario incluye datos de Ground Truth, verificar los hallazgos reportados contra ellos:

  • Calcular porcentajes de precisión por categoría
  • Señalar los falsos positivos y los falsos negativos

6.4. Si el escenario incluye una Rúbrica de Puntuación, puntuar cada dimensión del 1 al 5 con breve justificación.

6.5. Calcular métricas de resumen:

  • Aceptación: X/N criterios superados (PARTIAL cuenta como 0.5)
  • Umbral: PASS si >= umbral definido en el escenario
  • Total de rúbrica: X/Y puntos (si aplica)

Esperado: Todos los criterios de aceptación tienen una determinación. Se calculan las métricas de resumen.

En caso de fallo: Si menos de la mitad de los criterios pueden evaluarse (demasiados BLOCKED), la ejecución de la prueba es inconclusa. Documentar por qué y recomendar volver a ejecutar después de corregir las precondiciones.

Paso 7: Generar RESULT.md

7.1. Crear tests/results/YYYY-MM-DD-<target>-NNN/RESULT.md usando la Plantilla de Registro del Protocolo de Observación del escenario.

7.2. Rellenar todas las secciones:

  • Metadatos de ejecución (observador, marcas de tiempo, duración)
  • Registro de fases con todas las marcas de tiempo registradas
  • Registro de emergencia de roles (para pruebas adaptativas/de equipo)
  • Tabla de resultados de criterios de aceptación
  • Tabla de puntuaciones de rúbrica (si aplica)
  • Tabla de verificación de ground truth (si aplica)
  • Observaciones clave (narrativa)
  • Lecciones aprendidas

7.3. Incluir el resultado completo del equipo como apéndice o en un archivo separado (team-output.md) en el mismo directorio de resultados.

7.4. Añadir un veredicto de resumen en la parte superior:

**Verdict**: PASS | FAIL | INCONCLUSIVE
**Score**: X/N criteria (Y/Z rubric points)
**Duration**: Xm

Esperado: RESULT.md completo con todas las secciones rellenadas y un veredicto claro.

En caso de fallo: Si el archivo de resultados no puede escribirse, imprimir los resultados en stdout como alternativa. Los datos de evaluación nunca deben perderse.

Validación

  • Archivo de escenario de prueba cargado y todas las secciones obligatorias presentes
  • Precondiciones verificadas (o documentadas como BLOCKED)
  • Comportamientos clave del patrón de coordinación cargados desde el registro
  • Equipo instanciado y tarea entregada
  • Cambio de alcance inyectado en el momento correcto (si aplica)
  • Todos los comportamientos específicos del patrón evaluados (observado/parcial/no observado)
  • Todos los criterios de aceptación tienen una determinación (PASS/PARTIAL/FAIL/BLOCKED)
  • Verificación de ground truth completada (si aplica)
  • RESULT.md generado con todas las secciones rellenadas
  • Veredicto de resumen calculado y registrado

Errores Comunes

  • Evaluar la calidad del resultado en lugar de la coordinación: Esta habilidad prueba cómo coordina el equipo, no si el resultado de la tarea es perfecto. Un equipo que coordina bien pero encuentra solo 7/9 referencias rotas aún demuestra el patrón.
  • Inyectar el cambio de alcance demasiado pronto: Esperar hasta que la asignación de roles sea claramente visible antes de inyectar el cambio de alcance. Demasiado pronto significa que el equipo aún no se ha diferenciado, por lo que no hay nada que adaptar.
  • Confundir el resultado del miembro del equipo con el resultado del equipo: El equipo opaco debe presentar un resultado unificado. Si ve informes individuales de los miembros, eso es un hallazgo sobre la opacidad, no un problema de infraestructura de pruebas.
  • Coincidencia exacta de ground truth: Los recuentos de ground truth son aproximados. Evaluar si los hallazgos están en el rango correcto, no si coinciden exactamente.
  • Olvidar registrar las marcas de tiempo: Las marcas de tiempo son esenciales para medir las duraciones de las fases y la velocidad de adaptación. Establecerlas a medida que ocurren los eventos, no retroactivamente.

Habilidades Relacionadas

  • review-codebase — revisión profunda de base de código que complementa las pruebas a nivel de equipo
  • review-skill-format — valida el formato de habilidades individuales (esta habilidad valida la coordinación del equipo)
  • create-team — crea definiciones de equipo que esta habilidad prueba
  • evolve-team — evoluciona las definiciones de equipo basándose en los hallazgos de las pruebas
  • test-a2a-interop — patrón de pruebas similar para la conformidad del protocolo A2A
  • assess-form — la evaluación mórfica que usa internamente el líder del equipo opaco

GitHub 저장소

pjt222/agent-almanac
경로: i18n/es/skills/test-team-coordination
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

연관 스킬

evaluating-llms-harness

테스팅

이 Claude Skill은 MMLU, GSM8K를 포함한 60개 이상의 표준화된 학술 과제에서 LLM 성능을 벤치마크하기 위해 lm-evaluation-harness를 실행합니다. 개발자들이 모델 품질을 비교하고, 학습 진행 상황을 추적하거나 학술 결과를 보고할 수 있도록 설계되었습니다. 이 도구는 HuggingFace와 vLLM 모델을 포함한 다양한 백엔드를 지원합니다.

스킬 보기

cloudflare-cron-triggers

테스팅

이 스킬은 cron 표현식을 사용하여 Worker를 스케줄링하기 위한 Cloudflare Cron Triggers 구현에 관한 포괄적인 지식을 제공합니다. 주기적 작업, 유지보수 작업, 자동화된 워크플로우 설정 방법을 다루며, 잘못된 cron 표현식이나 시간대 문제 같은 일반적인 이슈들을 해결하는 방법을 포함합니다. 개발자들은 이를 통해 스케줄된 핸들러 구성, cron 트리거 테스트, Workflows 및 Green Compute와의 연동 작업을 수행할 수 있습니다.

스킬 보기

webapp-testing

테스팅

이 Claude Skill은 Python 스크립트를 통해 로컬 웹 애플리케이션을 테스트하기 위한 Playwright 기반 툴킷을 제공합니다. 프론트엔드 검증, UI 디버깅, 스크린샷 캡처, 로그 확인 기능을 지원하며 서버 라이프사이클을 관리합니다. 브라우저 자동화 작업에 사용하되 컨텍스트 오염을 방지하기 위해 소스 코드를 읽지 않고 스크립트를 직접 실행하세요.

스킬 보기

finishing-a-development-branch

테스팅

이 스킬은 테스트 통과를 확인한 후 체계적인 통합 옵션을 제시하여 개발자가 완성된 작업을 마무리하도록 돕습니다. 구현이 완료된 후 머지, PR 생성, 브랜치 정리와 같은 워크플로우를 안내합니다. 코드가 준비되고 테스트가 완료되었을 때 개발 프로세스를 체계적으로 마무리하기 위해 사용하세요.

스킬 보기