write-incident-runbook
关于
This skill creates structured incident runbooks with diagnostic steps, resolution procedures, escalation paths, and communication templates. Use it to standardize response to recurring alerts, reduce MTTR with clear diagnostics, and create training materials for on-call rotations. It's ideal for linking alert annotations directly to solution procedures.
快速安装
Claude Code
推荐npx skills add pjt222/agent-almanac -a claude-code/plugin add https://github.com/pjt222/agent-almanacgit clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/write-incident-runbook在 Claude Code 中复制并粘贴此命令以安装该技能
技能文档
name: write-incident-runbook description: > Strukturierte Incident-Runbooks mit Diagnoseschritten, Loesungsverfahren, Eskalationspfaden und Kommunikationsvorlagen fuer eine effektive Incident-Reaktion erstellen. Verwenden, wenn Reaktionsverfahren fuer wiederkehrende Alerts dokumentiert werden, die Incident- Reaktion innerhalb einer On-Call-Rotation standardisiert wird, die MTTR mit klaren Diagnoseschritten reduziert wird, Schulungsmaterialien fuer neue Teammitglieder erstellt werden oder Alert-Annotationen direkt mit Loesungsverfahren verknuepft werden sollen. locale: de source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: observability complexity: basic language: multi tags: runbook, incident-response, diagnostics, escalation, documentation
Incident-Runbook erstellen
Handlungsorientierte Runbooks erstellen, die Responder durch Incident-Diagnose und -Loesung fuehren.
Wann verwenden
- Reaktionsverfahren fuer wiederkehrende Alerts oder Incidents dokumentieren
- Incident-Reaktion innerhalb der On-Call-Rotation standardisieren
- Mean Time to Resolution (MTTR) mit klaren Diagnoseschritten reduzieren
- Schulungsmaterialien fuer neue Teammitglieder zur Incident-Behandlung erstellen
- Eskalationspfade und Kommunikationsprotokolle etablieren
- Stammeswissen in schriftliche Dokumentation uebertragen
- Alerts mit Loesungsverfahren verknuepfen (Alert-Annotationen)
Eingaben
- Pflichtfeld: Incident- oder Alert-Name/-Beschreibung
- Pflichtfeld: Historische Incident-Daten und Loesungsmuster
- Optional: Diagnoseabfragen (Prometheus, Logs, Traces)
- Optional: Eskalationskontakte und Kommunikationskanaele
- Optional: Fruehereincident-Post-Mortems
Vorgehensweise
Schritt 1: Runbook-Template-Struktur auswaehlen
Unter Extended Examples sind vollstaendige Template-Dateien verfuegbar.
Ein passendes Template basierend auf Incident-Typ und Komplexitaet auswaehlen.
Grundlegende Runbook-Template-Struktur:
# [Alert/Incident Name] Runbook
## Overview | Severity | Symptoms
## Diagnostic Steps | Resolution Steps
## Escalation | Communication | Prevention | Related
Erweitertes SRE-Runbook-Template (Auszug):
# [Service Name] - [Incident Type] Runbook
## Metadata
- Service, Owner, Severity, On-Call, Last Updated
## Diagnostic Phase
### Quick Health Check (< 5 min): Dashboard, error rate, deployments
### Detailed Investigation (5-20 min): Metrics, logs, traces, failure patterns
# ... (see EXAMPLES.md for complete template)
Wichtige Template-Komponenten:
- Metadaten: Service-Eigentuemer, Schweregrad, On-Call-Rotation
- Diagnosephase: Schnellchecks → detaillierte Untersuchung → Fehlermuster
- Loesungsphase: Sofortige Schadensbegrenzung → Ursachenbehebung → Verifizierung
- Eskalation: Kriterien und Kontaktpfade
- Kommunikation: Interne/externe Vorlagen
- Praevention: Kurz-/Langzeitmassnahmen
Erwartet: Ausgewaehltes Template entspricht der Incident-Komplexitaet, Abschnitte sind fuer den Service-Typ angemessen.
Bei Fehler:
- Mit dem Basis-Template beginnen und basierend auf Incident-Mustern iterieren
- Branchenbeispiele pruefen (Google-SRE-Buecher, Anbieter-Runbooks)
- Template basierend auf Team-Feedback nach der ersten Verwendung anpassen
Schritt 2: Diagnoseverfahren dokumentieren
Unter Extended Examples sind vollstaendige Diagnoseabfragen und Entscheidungsbaeume verfuegbar.
Schrittweise Untersuchungsverfahren mit spezifischen Abfragen erstellen.
Sechsstufige Diagnose-Checkliste:
-
Service-Gesundheit pruefen: Gesundheitsendpunkt-Pruefungen und Uptime-Metriken
curl -I https://api.example.com/health # Expected: HTTP 200 OKup{job="api-service"} # Expected: 1 for all instances -
Fehlerrate pruefen: Aktuelle Fehlerprozentzahl und Aufschluesselung nach Endpunkt
sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) * 100 # Expected: < 1% -
Logs analysieren: Aktuelle Fehler und haeufigste Fehlermeldungen aus Loki
{job="api-service"} |= "error" | json | level="error" -
Ressourcenauslastung pruefen: CPU, Arbeitsspeicher und Verbindungspool-Status
avg(rate(container_cpu_usage_seconds_total{pod=~"api-service.*"}[5m])) * 100 # Expected: < 70% -
Aktuelle Aenderungen pruefen: Deployments, Git-Commits, Infrastrukturanpassungen
-
Abhaengigkeiten untersuchen: Downstream-Service-Gesundheit, Datenbank-/API-Latenz
Fehlermuster-Entscheidungsbaum (Auszug):
- Service ausgefallen? → Alle Pods/Instanzen pruefen
- Fehlerrate erhoht? → Spezifische Fehlertypen pruefen (5xx, Gateway, Datenbank, Timeouts)
- Wann hat es begonnen? → Nach Deployment (Rollback), graduell (Ressourcenleck), ploetzlich (Traffic/Abhaengigkeit)
Erwartet: Diagnoseverfahren sind spezifisch, enthalten erwartete vs. tatsaechliche Werte, fuehren Responder durch die Untersuchung.
Bei Fehler:
- Abfragen im tatsaechlichen Monitoring-System testen, bevor sie dokumentiert werden
- Screenshots von Dashboards als visuelle Referenz einschliessen
- Abschnitt "Haeufige Fehler" fuer oft uebersehene Schritte hinzufuegen
- Basierend auf Feedback von Incident-Respondern iterieren
Schritt 3: Loesungsverfahren definieren
Unter Extended Examples sind alle 5 Loesungsoptionen mit vollstaendigen Befehlen und Rollback-Verfahren verfuegbar.
Schrittweise Behebung mit Rollback-Optionen dokumentieren.
Fuenf Loesungsoptionen (kurze Zusammenfassung):
-
Rollback eines Deployments (am schnellsten): Bei Fehlern nach dem Deployment
kubectl rollout undo deployment/api-serviceVerifizieren → Ueberwachen → Loesungsbestaetigung (Fehlerrate < 1%, Latenz normal, keine Alerts)
-
Ressourcen hochskalieren: Bei hoher CPU/Arbeitsspeicher, Verbindungspool-Erschoepfung
kubectl scale deployment/api-service --replicas=$((current * 3/2)) -
Service neustarten: Bei Speicherlecks, haengenden Verbindungen, Cache-Beschaedigung
kubectl rollout restart deployment/api-service -
Feature Flag / Circuit Breaker: Bei spezifischen Feature-Fehlern oder externen Abhaengigkeitsausfaellen
kubectl set env deployment/api-service FEATURE_NAME=false -
Datenbank-Behebung: Bei Datenbankverbindungen, langsamen Abfragen, Pool-Erschoepfung
-- Kill long-running queries, restart connection pool, increase pool size
Universelle Verifikations-Checkliste:
- Fehlerrate < 1%
- Latenz P99 < Schwellenwert
- Durchsatz auf Basislinie
- Ressourcennutzung gesund (CPU < 70%, Arbeitsspeicher < 80%)
- Abhaengigkeiten gesund
- Benutzerseitige Tests bestanden
- Keine aktiven Alerts
Rollback-Verfahren: Wenn Loesung die Situation verschlechtert → pausieren/abbrechen → rueckgaengig machen → neu bewerten
Erwartet: Loesungsschritte klar, enthalten Verifikationspruefungen, bieten Rollback-Optionen fuer jede Aktion.
Bei Fehler:
- Mehr granulare Schritte fuer komplexe Verfahren hinzufuegen
- Screenshots oder Diagramme fuer mehrstufige Prozesse einschliessen
- Befehlsausgaben dokumentieren (erwartet vs. tatsaechlich)
- Separates Runbook fuer komplexe Loesungsverfahren erstellen
Schritt 4: Eskalationspfade etablieren
Unter Extended Examples sind vollstaendige Eskalationsstufen und Kontaktverzeichnis-Vorlage verfuegbar.
Festlegen, wann und wie Incidents eskaliert werden.
Wann sofort eskalieren:
- Kundenseitiger Ausfall > 15 Minuten
- SLO-Fehlerbudget > 10% erschoepft
- Datenverlust/-beschaedigung oder Sicherheitsverletzung vermutet
- Ursache innerhalb von 20 Minuten nicht identifizierbar
- Schadensminderungsversuche schlagen fehl oder verschlechtern die Situation
Fuenf Eskalationsstufen:
- Primaerer On-Call (5 Min. Reaktionszeit): Fixes deployen, Rollback, Skalierung (bis zu 30 Min. allein)
- Sekundaerer On-Call (automatisch nach 15 Min.): Zusaetzliche Unterstuetzung bei der Untersuchung
- Teamleiter (architektonische Entscheidungen): Datenbankaenderungen, Anbieter-Eskalation, Incidents > 1 Stunde
- Incident Commander (teamuebergreifende Koordination): Mehrere Teams, Kundenkommunikation, Incidents > 2 Stunden
- Fuehrungsebene (C-Level): Grosse Auswirkungen (>50% Nutzer), SLA-Verletzung, Medien/PR, Ausfaelle > 4 Stunden
Eskalationsprozess:
- Ziel benachrichtigen mit: aktuellem Status, Auswirkungen, ergriffenen Massnahmen, benoetigter Hilfe, Dashboard-Link
- Bei Bedarf uebergeben: Timeline teilen, Massnahmen, Zugriff, erreichbar bleiben
- Nicht still sein: alle 15 Min. aktualisieren, Fragen stellen, Feedback geben
Kontaktverzeichnis: Tabelle mit Rolle, Slack, Telefon, PagerDuty fuer:
- Plattform-/Datenbank-/Sicherheits-/Netzwerk-Teams
- Incident Commander
- Externe Anbieter (AWS, Datenbankanbieter, CDN-Anbieter)
Erwartet: Klare Eskalationskriterien, Kontaktinformationen leicht zugaenglich, Eskalationspfade entsprechen der Organisationsstruktur.
Bei Fehler:
- Kontaktinformationen auf Aktualitaet pruefen (vierteljaehrlich testen)
- Entscheidungsbaum hinzufuegen, wann eskaliert werden soll
- Beispiele fuer Eskalationsmeldungen einschliessen
- Reaktionszeiterwartungen fuer jede Stufe dokumentieren
Schritt 5: Kommunikationsvorlagen erstellen
Unter Extended Examples sind alle internen und externen Vorlagen mit vollstaendiger Formatierung verfuegbar.
Vorgefertigte Nachrichten fuer Incident-Updates bereitstellen.
Interne Vorlagen (Slack #incident-response):
-
Ersterklaerung:
🚨 INCIDENT: [Title] | Severity: [Critical/High/Medium] Impact: [users/services] | Owner: @username | Dashboard: [link] Quick Summary: [1-2 sentences] | Next update: 15 min -
Fortschrittsupdate (alle 15-30 Min.):
📊 UPDATE #N | Status: [Investigating/Mitigating/Monitoring] Actions: [what we tried and outcomes] Theory: [what we think is happening] Next: [planned actions] -
Schadensbegrenzung abgeschlossen:
✅ MITIGATION | Metrics: Error [before→after], Latency [before→after] Root Cause: [brief or "investigating"] | Monitoring 30min before resolved -
Loesungsbekanntmachung:
🎉 RESOLVED | Duration: [time] | Root Cause + Impact + Follow-up actions -
Fehlalarm: Keine Auswirkungen, kein Follow-up erforderlich
Externe Vorlagen (Statusseite):
- Initial: Untersuchung, Startzeit, naechstes Update in 15 Min.
- Fortschritt: Ursache identifiziert (kundenverstaendlich), Behebung wird implementiert, geschaetzte Loesungszeit
- Loesung: Loesungszeit, Ursache (einfach), Dauer, Praeventionsmassnahmen
Kunden-E-Mail-Vorlage: Timeline, Auswirkungsbeschreibung, Loesung, Praevention, Entschaedigung (falls zutreffend)
Erwartet: Vorlagen sparen Zeit waehrend Incidents, gewaehrleisten konsistente Kommunikation, reduzieren kognitive Belastung der Responder.
Bei Fehler:
- Vorlagen an den Kommunikationsstil des Unternehmens anpassen
- Vorlagen mit gaengigen Incident-Typen vorab ausfuellen
- Slack-Workflow/Bot erstellen, um Vorlagen automatisch zu befuellen
- Vorlagen waehrend Incident-Retrospektiven ueberpruefen
Schritt 6: Runbook mit Monitoring verknuepfen
Unter Extended Examples sind vollstaendige Prometheus-Alert-Konfigurationen und Grafana-Dashboard-JSON verfuegbar.
Runbook mit Alerts und Dashboards integrieren.
Runbook-Links zu Prometheus-Alerts hinzufuegen:
- alert: HighErrorRate
annotations:
runbook_url: "https://wiki.example.com/runbooks/high-error-rate"
dashboard_url: "https://grafana.example.com/d/service-overview"
incident_channel: "#incident-platform"
Schnelle Diagnose-Links im Runbook einbetten:
- Service-Uebersichts-Dashboard
- Fehlerrate der letzten Stunde (Prometheus-Direktlink)
- Aktuelle Fehler-Logs (Loki/Grafana Explore)
- Aktuelle Deployments (GitHub/CI)
- PagerDuty-Incidents
Grafana-Dashboard-Panel erstellen mit Runbook-Links (Markdown-Panel, der alle Incident-Runbooks mit On-Call- und Eskalationsinformationen auflistet)
Erwartet: Responder koennen Runbooks direkt aus Alerts oder Dashboards aufrufen, Diagnoseabfragen sind vorab ausgefuellt, Ein-Klick-Zugriff auf relevante Tools.
Bei Fehler:
- Pruefen, ob Runbook-URLs ohne VPN/Login zugaenglich sind
- URL-Verkuerzer fuer komplexe Grafana/Prometheus-Links verwenden
- Links vierteljaehrlich testen, um sicherzustellen, dass sie nicht kaputt gehen
- Browser-Lesezeichen fuer haeufig verwendete Runbooks erstellen
Validierung
- Runbook folgt konsistenter Template-Struktur
- Diagnoseverfahren enthalten spezifische Abfragen und erwartete Werte
- Loesungsschritte sind handlungsorientiert mit klaren Befehlen
- Eskalationskriterien und Kontakte sind aktuell
- Kommunikationsvorlagen fuer interne und externe Zielgruppen bereitgestellt
- Runbook ist aus Monitoring-Alerts und Dashboards verknuepft
- Runbook waehrend einer Incident-Simulation oder einem echten Incident getestet
- Feedback von Respondern in das Runbook eingeflossen
- Revisionsverlauf mit Datum und Autoren verfolgt
- Runbook ohne Authentifizierung zugaenglich (oder offline gecacht)
Haeufige Stolperfallen
- Zu generisch: Runbooks mit vagen Schritten wie "Logs pruefen" ohne spezifische Abfragen sind nicht handlungsorientiert. Konkret sein.
- Veraltete Informationen: Runbooks, die auf alte Systeme oder Befehle verweisen, werden nutzlos. Vierteljaehrlich ueberpruefen.
- Keine Verifikationsschritte: Loesung ohne Verifizierung fuehrt zu falsch positiven Ergebnissen. Immer "Wie bestaetigt man, dass es behoben ist" einschliessen.
- Fehlende Rollback-Verfahren: Jede Aktion sollte einen Rollback-Plan haben. Responder nicht in einem schlechteren Zustand zuruecklassen.
- Wissen voraussetzen: Runbooks nur fuer Experten schliessen Junior-Engineers aus. Fuer die am wenigsten erfahrene Person in der Rotation schreiben.
- Kein Eigentuemer: Runbooks ohne Eigentuemer werden veraltet. Team/Person zuweisen, das/die fuer Updates zustaendig ist.
- Hinter Authentifizierung verborgen: Runbooks, die bei VPN/SSO-Problemen nicht zugaenglich sind, sind in einer Krise nutzlos. Kopien cachen oder oeffentliches Wiki verwenden.
Verwandte Skills
configure-alerting-rules- Runbooks mit Alert-Annotationen verknuepfen fuer sofortigen Zugriff waehrend Incidentsbuild-grafana-dashboards- Runbook-Links in Dashboards und Diagnose-Panels einbettensetup-prometheus-monitoring- Diagnoseabfragen aus Prometheus in Runbook-Verfahren einschliessendefine-slo-sli-sla- SLO-Auswirkungen in die Incident-Schweregrad-Klassifizierung einbeziehen
GitHub 仓库
相关推荐技能
railway-docs
文档Railway Docs Skill可实时获取最新的Railway官方文档,确保回答的准确性。当开发者询问Railway功能特性、工作原理或分享docs.railway.com链接时,应优先使用此技能。它通过专门的LLM优化文档源提供最新信息,避免依赖过时记忆来回答技术问题。
n8n-code-python
文档该Skill为在n8n平台的Python代码节点中编写代码提供专家指导,特别适用于需要使用_input/_json/_node语法、Python标准库或了解n8n中Python限制的场景。它强调JavaScript应作为首选方案,仅当需要特定Python功能或对Python语法更熟悉时才使用Python。Skill提供了快速入门模板和关键注意事项,帮助开发者在n8n中高效编写Python代码。
archon
文档Archon Skill为开发者提供了基于RAG的语义搜索和项目任务管理功能,可通过REST API访问知识库。它支持文档搜索、网站爬取、文件上传和版本控制,适用于技术文档查询和项目管理场景。首次使用时需要配置Archon主机地址,建议在处理外部文档时优先使用该Skill。
n8n-code-javascript
文档这个Skill为n8n工作流中的JavaScript代码节点提供专业指导,涵盖数据处理、HTTP请求和日期操作等核心场景。它详细解释了如何正确使用n8n特有的`$input`/`$json`语法、`$helpers`工具以及DateTime对象,并包含关键的错误排查和模式选择建议。开发者通过该Skill能快速掌握Code节点的正确返回格式、数据访问方法和常见陷阱解决方案。
