SKILL·1C9D65

write-incident-runbook

Name: write-incident-runbook
Author: pjt222

pjt222

업데이트됨 1 month ago

9 조회

디자인worddesign

정보

이 Claude Skill은 진단 단계, 해결 절차, 커뮤니케이션 템플릿을 포함한 구조화된 인시던트 실행 매뉴얼을 생성합니다. 반복적인 알림에 대한 인시던트 대응을 표준화하고 명확한 문서화를 통해 평균 해결 시간(MTTR)을 단축하는 데 도움이 됩니다. 개발자는 이를 활용하여 교육 자료를 만들고, 알림 주석을 해결 워크플로우에 직접 연결할 수 있습니다.

빠른 설치

Claude Code

문서

name: write-incident-runbook description: > Crea manuales de incidentes estructurados con pasos de diagnóstico, procedimientos de resolución, rutas de escalada y plantillas de comunicación para una respuesta efectiva a incidentes. Útil para documentar procedimientos de respuesta para alertas recurrentes, estandarizar la respuesta a incidentes en una rotación de guardia, reducir el MTTR con pasos de diagnóstico claros, crear materiales de formación para nuevos miembros del equipo, o vincular anotaciones de alerta directamente a procedimientos de resolución. locale: es source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: observability complexity: basic language: multi tags: runbook, incident-response, diagnostics, escalation, documentation

Escribir Manual de Incidentes

Crea manuales accionables que guíen a los equipos de respuesta a través del diagnóstico y la resolución de incidentes.

Cuándo Usar

Documentar procedimientos de respuesta para alertas o incidentes recurrentes
Estandarizar la respuesta a incidentes entre los miembros de la rotación de guardia
Reducir el tiempo medio de resolución (MTTR) con pasos de diagnóstico claros
Crear materiales de formación para nuevos miembros del equipo en el manejo de incidentes
Establecer rutas de escalada y protocolos de comunicación
Migrar el conocimiento tribal a documentación escrita
Vincular alertas a procedimientos de resolución (anotaciones de alerta)

Entradas

Requerido: Nombre/descripción del incidente o alerta
Requerido: Datos históricos de incidentes y patrones de resolución
Opcional: Consultas de diagnóstico (Prometheus, logs, trazas)
Opcional: Contactos de escalada y canales de comunicación
Opcional: Post-mortems de incidentes anteriores

Procedimiento

Paso 1: Elegir la Estructura de Plantilla del Manual

Consulta Ejemplos Extendidos para archivos de plantilla completos.

Selecciona una plantilla apropiada según el tipo y la complejidad del incidente.

Estructura básica de plantilla de manual:

# [Alert/Incident Name] Runbook
## Overview | Severity | Symptoms
## Diagnostic Steps | Resolution Steps
## Escalation | Communication | Prevention | Related

Plantilla avanzada de manual SRE (extracto):

# [Service Name] - [Incident Type] Runbook

## Metadata
- Service, Owner, Severity, On-Call, Last Updated

## Diagnostic Phase
### Quick Health Check (< 5 min): Dashboard, error rate, deployments
### Detailed Investigation (5-20 min): Metrics, logs, traces, failure patterns
# ... (see EXAMPLES.md for complete template)

Componentes clave de la plantilla:

Metadatos: Propiedad del servicio, gravedad, rotación de guardia
Fase de diagnóstico: Verificaciones rápidas → investigación detallada → patrones de fallo
Fase de resolución: Mitigación inmediata → corrección de causa raíz → verificación
Escalada: Criterios y rutas de contacto
Comunicación: Plantillas internas/externas
Prevención: Acciones a corto/largo plazo

Esperado: La plantilla seleccionada coincide con la complejidad del incidente, las secciones son apropiadas para el tipo de servicio.

En caso de fallo:

Comenzar con la plantilla básica, iterar basándose en los patrones del incidente
Revisar ejemplos de la industria (libros SRE de Google, manuales de proveedores)
Adaptar la plantilla basándose en los comentarios del equipo después del primer uso

Paso 2: Documentar los Procedimientos de Diagnóstico

Consulta Ejemplos Extendidos para consultas de diagnóstico completas y árboles de decisión.

Crea procedimientos de investigación paso a paso con consultas específicas.

Lista de verificación de diagnóstico de seis pasos:

Verificar la salud del servicio: Verificaciones del endpoint de salud y métricas de tiempo de actividad

curl -I https://api.example.com/health  # Expected: HTTP 200 OK

up{job="api-service"}  # Expected: 1 for all instances

Verificar la tasa de errores: Porcentaje de error actual y desglose por endpoint

sum(rate(http_requests_total{status=~"5.."}[5m]))
/ sum(rate(http_requests_total[5m])) * 100  # Expected: < 1%

Analizar los logs: Errores recientes y mensajes de error principales desde Loki
```
{job="api-service"} |= "error" | json | level="error"
```

Verificar la utilización de recursos: Estado de CPU, memoria y pool de conexiones

avg(rate(container_cpu_usage_seconds_total{pod=~"api-service.*"}[5m])) * 100
# Expected: < 70%

Revisar los cambios recientes: Despliegues, commits de git, cambios de infraestructura
Examinar las dependencias: Salud del servicio descendente, latencia de base de datos/API

Árbol de decisión de patrones de fallo (extracto):

¿Servicio caído? → Verificar todos los pods/instancias
¿Tasa de error elevada? → Verificar tipos de error específicos (5xx, gateway, base de datos, timeouts)
¿Cuándo comenzó? → Después del despliegue (rollback), gradual (fuga de recursos), repentino (tráfico/dependencia)

Esperado: Los procedimientos de diagnóstico son específicos, incluyen valores esperados vs actuales, guían al equipo de respuesta a través de la investigación.

En caso de fallo:

Probar las consultas en el sistema de monitoreo real antes de documentarlas
Incluir capturas de pantalla de dashboards para referencia visual
Agregar una sección de "Errores comunes" para pasos frecuentemente omitidos
Iterar basándose en los comentarios de los equipos de respuesta a incidentes

Paso 3: Definir los Procedimientos de Resolución

Consulta Ejemplos Extendidos para las 5 opciones de resolución con comandos completos y procedimientos de reversión.

Documenta la remediación paso a paso con opciones de reversión.

Cinco opciones de resolución (resumen breve):

Revertir el despliegue (más rápido): Para errores post-despliegue
```
kubectl rollout undo deployment/api-service
```
Verificar → Monitorear → Confirmar resolución (tasa de error < 1%, latencia normal, sin alertas)
Escalar recursos: Para alta CPU/memoria, agotamiento del pool de conexiones
```
kubectl scale deployment/api-service --replicas=$((current * 3/2))
```
Reiniciar el servicio: Para fugas de memoria, conexiones bloqueadas, corrupción de caché
```
kubectl rollout restart deployment/api-service
```
Feature Flag / Circuit Breaker: Para errores de características específicas o fallos de dependencias externas
```
kubectl set env deployment/api-service FEATURE_NAME=false
```
Remediación de base de datos: Para conexiones de base de datos, consultas lentas, agotamiento del pool
```
-- Kill long-running queries, restart connection pool, increase pool size
```

Lista de verificación de verificación universal:

Tasa de error < 1%
Latencia P99 < umbral
Rendimiento en la línea base
Uso de recursos saludable (CPU < 70%, Memoria < 80%)
Dependencias saludables
Pruebas orientadas al usuario pasan
Sin alertas activas

Procedimiento de reversión: Si la resolución empeora la situación → pausar/cancelar → revertir → reevaluar

Esperado: Los pasos de resolución son claros, incluyen verificaciones de verificación, proporcionan opciones de reversión para cada acción.

En caso de fallo:

Agregar pasos más detallados para procedimientos complejos
Incluir capturas de pantalla o diagramas para procesos de múltiples pasos
Documentar las salidas de comandos (esperadas vs actuales)
Crear un manual separado para procedimientos de resolución complejos

Paso 4: Establecer las Rutas de Escalada

Consulta Ejemplos Extendidos para niveles de escalada completos y plantilla de directorio de contactos.

Define cuándo y cómo escalar los incidentes.

Cuándo escalar inmediatamente:

Interrupción orientada al cliente > 15 minutos
Presupuesto de error de SLO > 10% agotado
Pérdida/corrupción de datos o sospecha de brecha de seguridad
No se puede identificar la causa raíz en 20 minutos
Los intentos de mitigación fallan o empeoran la situación

Cinco niveles de escalada:

Guardia primario (respuesta en 5 min): Desplegar correcciones, rollback, escalar (hasta 30 min solo)
Guardia secundario (automático después de 15 min): Soporte adicional de investigación
Líder de equipo (decisiones arquitectónicas): Cambios de base de datos, escalada de proveedor, incidentes > 1 hora
Comandante de incidente (coordinación entre equipos): Múltiples equipos, comunicaciones con clientes, incidentes > 2 horas
Ejecutivo (nivel C): Gran impacto (>50% usuarios), incumplimiento de SLA, medios/PR, interrupciones > 4 horas

Proceso de escalada:

Notificar al destinatario con: estado actual, impacto, acciones tomadas, ayuda necesaria, vínculo al dashboard
Traspaso si es necesario: compartir cronología, acciones, acceso, permanecer disponible
No guardar silencio: actualizar cada 15 min, hacer preguntas, proporcionar retroalimentación

Directorio de contactos: Mantener una tabla con rol, Slack, teléfono, PagerDuty para:

Equipos de Plataforma/Base de datos/Seguridad/Red
Comandante de incidente
Proveedores externos (AWS, proveedor de base de datos, proveedor de CDN)

Esperado: Criterios claros para la escalada, información de contacto fácilmente accesible, rutas de escalada alineadas con la estructura organizacional.

En caso de fallo:

Validar que la información de contacto esté actualizada (probar trimestralmente)
Agregar árbol de decisión para cuándo escalar
Incluir ejemplos de mensajes de escalada
Documentar las expectativas de tiempo de respuesta para cada nivel

Paso 5: Crear Plantillas de Comunicación

Consulta Ejemplos Extendidos para todas las plantillas internas y externas con formato completo.

Proporciona mensajes pre-escritos para actualizaciones de incidentes.

Plantillas internas (Slack #incident-response):

Declaración inicial:

🚨 INCIDENT: [Title] | Severity: [Critical/High/Medium]
Impact: [users/services] | Owner: @username | Dashboard: [link]
Quick Summary: [1-2 sentences] | Next update: 15 min

Actualización de progreso (cada 15-30 min):

📊 UPDATE #N | Status: [Investigating/Mitigating/Monitoring]
Actions: [what we tried and outcomes]
Theory: [what we think is happening]
Next: [planned actions]

Mitigación completada:

✅ MITIGATION | Metrics: Error [before→after], Latency [before→after]
Root Cause: [brief or "investigating"] | Monitoring 30min before resolved

Resolución:

🎉 RESOLVED | Duration: [time] | Root Cause + Impact + Follow-up actions

Falsa alarma: Sin impacto, sin seguimiento necesario

Plantillas externas (página de estado):

Inicial: Investigando, hora de inicio, próxima actualización en 15 min
Progreso: Causa identificada (amigable para el cliente), implementando corrección, resolución estimada
Resolución: Hora de resolución, causa raíz (simple), duración, medidas de prevención

Plantilla de correo electrónico para clientes: Cronología, descripción del impacto, resolución, prevención, compensación (si aplica)

Esperado: Las plantillas ahorran tiempo durante los incidentes, garantizan comunicación consistente, reducen la carga cognitiva en los equipos de respuesta.

En caso de fallo:

Personalizar las plantillas para que coincidan con el estilo de comunicación de la empresa
Pre-completar las plantillas con tipos de incidentes comunes
Crear un flujo de trabajo/bot de Slack para completar las plantillas automáticamente
Revisar las plantillas durante las retrospectivas de incidentes

Paso 6: Vincular el Manual al Monitoreo

Consulta Ejemplos Extendidos para la configuración completa de alertas de Prometheus y el JSON del dashboard de Grafana.

Integra el manual con alertas y dashboards.

Agregar vínculos de manual a las alertas de Prometheus:

- alert: HighErrorRate
  annotations:
    runbook_url: "https://wiki.example.com/runbooks/high-error-rate"
    dashboard_url: "https://grafana.example.com/d/service-overview"
    incident_channel: "#incident-platform"

Incrustar vínculos de diagnóstico rápido en el manual:

Dashboard de Resumen del Servicio
Tasa de Error Última 1h (vínculo directo de Prometheus)
Logs de Error Recientes (Loki/Grafana Explore)
Despliegues Recientes (GitHub/CI)
Incidentes de PagerDuty

Crear panel de dashboard de Grafana con vínculos de manual (panel markdown que lista todos los manuales de incidentes con información de guardia y escalada)

Esperado: Los equipos de respuesta pueden acceder a los manuales directamente desde las alertas o dashboards, las consultas de diagnóstico están pre-completadas, acceso con un clic a las herramientas relevantes.

En caso de fallo:

Verificar que las URL de los manuales sean accesibles sin VPN/inicio de sesión
Usar acortadores de URL para vínculos complejos de Grafana/Prometheus
Probar los vínculos trimestralmente para asegurarse de que no se rompan
Crear marcadores del navegador para los manuales de uso frecuente

Validación

Errores Comunes

Demasiado genérico: Los manuales con pasos vagos como "verificar los logs" sin consultas específicas no son accionables. Ser específico.
Información desactualizada: Los manuales que hacen referencia a sistemas o comandos antiguos se vuelven inútiles. Revisar trimestralmente.
Sin pasos de verificación: La resolución sin verificación lleva a falsos positivos. Siempre incluir "cómo confirmar que está arreglado."
Procedimientos de reversión faltantes: Cada acción debe tener un plan de reversión. No atrapar a los equipos de respuesta en un estado peor.
Asumir conocimiento: Los manuales solo para expertos excluyen a los ingenieros junior. Escribir para la persona menos experimentada en rotación.
Sin propietario: Los manuales sin propietarios se vuelven obsoletos. Asignar equipo/persona responsable de las actualizaciones.
Oculto detrás de autenticación: Los manuales inaccesibles durante problemas de VPN/SSO son inútiles durante una crisis. Guardar copias en caché o usar una wiki pública.

Habilidades Relacionadas

configure-alerting-rules - Vincular manuales a anotaciones de alerta para acceso inmediato durante incidentes
build-grafana-dashboards - Incrustar vínculos de manuales en dashboards y paneles de diagnóstico
setup-prometheus-monitoring - Incluir consultas de diagnóstico de Prometheus en los procedimientos del manual
define-slo-sli-sla - Referenciar el impacto en el SLO en la clasificación de gravedad del incidente

GitHub 저장소

pjt222/agent-almanac

경로: i18n/es/skills/write-incident-runbook

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the write-incident-runbook skill?

write-incident-runbook is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform write-incident-runbook-related tasks without extra prompting.

How do I install write-incident-runbook?

Use the install commands on this page: add write-incident-runbook to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does write-incident-runbook belong to?

write-incident-runbook is in the Design category, tagged word and design.

Is write-incident-runbook free to use?

Yes. write-incident-runbook is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

연관 스킬

executing-plans

디자인

executing-plans 스킬은 검토 체크포인트가 포함된 통제된 배치로 실행할 완전한 구현 계획이 있을 때 사용합니다. 이 스킬은 계획을 불러와 비판적으로 검토한 후, 소규모 배치(기본값 3개 작업)로 작업을 실행하면서 각 배치 사이에 진행 상황을 아키텍트 검토를 위해 보고합니다. 이를 통해 내재된 품질 관리 체크포인트를 갖춘 체계적인 구현이 보장됩니다.

스킬 보기

requesting-code-review

디자인

이 스킬은 코드 변경 사항을 요구 사항에 따라 분석하기 위해 코드 리뷰어 하위 에이전트를 호출합니다. 작업 완료 후, 주요 기능 구현 후, 또는 메인 브랜치에 병합하기 전에 사용해야 합니다. 이 리뷰는 현재 구현체와 원래 계획을 비교하여 문제를 조기에 발견하는 데 도움이 됩니다.

스킬 보기

connect-mcp-server

디자인

이 스킬은 개발자들이 HTTP, stdio 또는 SSE 전송 방식을 통해 MCP 서버를 Claude Code에 연결하는 포괄적인 가이드를 제공합니다. GitHub, Notion 및 사용자 정의 API와 같은 외부 서비스를 통합하기 위한 설치, 구성, 인증 및 보안을 다룹니다. MCP 통합 설정, 외부 도구 구성 또는 Claude의 모델 컨텍스트 프로토콜 작업 시 활용하세요.

스킬 보기

web-cli-teleport

디자인

이 스킬은 작업 분석을 기반으로 개발자가 Claude Code 웹 인터페이스와 CLI 인터페이스 중 선택할 수 있도록 돕고, 두 환경 간 원활한 세션 텔레포트를 가능하게 합니다. 웹, CLI 또는 모바일 환경 전환 시 세션 상태와 컨텍스트를 관리하여 워크플로를 최적화합니다. 다양한 단계에서 서로 다른 도구가 필요한 복잡한 프로젝트에 사용하세요.

스킬 보기