スキル一覧に戻る

write-incident-runbook

pjt222
更新日 2 days ago
8 閲覧
17
2
17
GitHubで表示
メタwordai

について

このスキルは、構造化されたインシデント対応手順書を生成し、対応プロセスの標準化と文書化を行います。診断ステップ、解決アクション、エスカレーションパス、コミュニケーションテンプレートを作成し、平均解決時間(MTTR)の短縮を実現します。定期的なアラート対応、新規チームメンバーのオンボーディング、またはアラートと解決ワークフローの直接連携にご活用ください。

クイックインストール

Claude Code

推奨
メイン
npx skills add pjt222/agent-almanac -a claude-code
プラグインコマンド代替
/plugin add https://github.com/pjt222/agent-almanac
Git クローン代替
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/write-incident-runbook

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

書事故行冊

立可行之冊,導應者過事故診與解。

用時

  • 錄常警或事故之應程
  • 統一輪值間之事故應
  • 以明診步減平均解時(MTTR)
  • 為新員立事故處之訓材
  • 立升路與通協
  • 移群知於書文
  • 連警於解程(警注)

  • 必要:事故或警之名/述
  • 必要:歷事故數與解模
  • 可選:診查(Prometheus、記、跡)
  • 可選:升聯與通道
  • 可選:前事後檢

第一步:擇行冊模

Extended Examples 為全模文。

依事故類與複擇宜模。

基行冊模結構

# [Alert/Incident Name] Runbook
## Overview | Severity | Symptoms
## Diagnostic Steps | Resolution Steps
## Escalation | Communication | Prevention | Related

進 SRE 行冊模(節):

# [Service Name] - [Incident Type] Runbook

## Metadata
- Service, Owner, Severity, On-Call, Last Updated

## Diagnostic Phase
### Quick Health Check (< 5 min): Dashboard, error rate, deployments
### Detailed Investigation (5-20 min): Metrics, logs, traces, failure patterns
# ... (see EXAMPLES.md for complete template)

模之要件:

  • :服之屬、嚴重、輪值
  • 診階:速察 → 詳查 → 敗模
  • 解階:即緩 → 根修 → 驗
  • :準與聯路
  • :內/外模
  • :短/長行

得:擇之模配事故複,段宜服類。

敗則:

  • 自基模始,依事故模迭
  • 察行例(Google SRE 書、廠行冊)
  • 用後依員饋調模

第二步:錄診程

Extended Examples 為全診查與決樹。

立逐步查程附特查。

六步診清

  1. 驗服健:健端察與在線指

    curl -I https://api.example.com/health  # Expected: HTTP 200 OK
    
    up{job="api-service"}  # Expected: 1 for all instances
    
  2. 察訛率:當前訛百分與依端分

    sum(rate(http_requests_total{status=~"5.."}[5m]))
    / sum(rate(http_requests_total[5m])) * 100  # Expected: < 1%
    
  3. 析記:近訛與最常訛辭自 Loki

    {job="api-service"} |= "error" | json | level="error"
    
  4. 察資用:CPU、記、連池

    avg(rate(container_cpu_usage_seconds_total{pod=~"api-service.*"}[5m])) * 100
    # Expected: < 70%
    
  5. 覽近變:部、git 提、基設變

  6. 察依:下游服健、庫/API 延

敗模決樹(節):

  • 服敗乎?→ 察諸 pod/實例
  • 訛率升乎?→ 察特訛類(5xx、閘道、庫、超時)
  • 何時始?→ 部後(回滾)、漸(資漏)、驟(流/依)

得:診程具,含期對實值,導應者過查。

敗則:

  • 錄前於實監系試查
  • 含面板圖以視參
  • 加常忽步之「常誤」段
  • 依事故應者饋迭

第三步:定解程

Extended Examples 為全五解選含全命與回滾程。

錄逐步修附回滾選。

五解選(簡摘):

  1. 回滾部(最速):部後訛

    kubectl rollout undo deployment/api-service
    

    驗 → 監 → 確解(訛率 < 1%、延正、無警)

  2. 擴資:高 CPU/記、連池竭

    kubectl scale deployment/api-service --replicas=$((current * 3/2))
    
  3. 重啟服:記漏、卡連、緩污

    kubectl rollout restart deployment/api-service
    
  4. 特旗/斷路:特功訛或外依敗

    kubectl set env deployment/api-service FEATURE_NAME=false
    
  5. 庫修:庫連、慢查、池竭

    -- Kill long-running queries, restart connection pool, increase pool size
    

通驗清

  • 訛率 < 1%
  • 延 P99 < 閾
  • 流量於基線
  • 資用健(CPU < 70%、記 < 80%)
  • 依健
  • 用面試過
  • 無活警

回滾程:解惡狀者 → 暫/取 → 反 → 重評

得:解步明、含驗察、為每行供回滾選。

敗則:

  • 為複程加更細步
  • 含面板或圖為多步流
  • 錄命出(期對實)
  • 為複解程立別行冊

第四步:立升路

Extended Examples 為全升層與聯目模。

定何時何升事故。

即升之時

  • 顧客向斷 > 15 分
  • SLO 訛預 > 10% 耗
  • 數失/污或安破疑
  • 20 分內不能識根因
  • 緩之嘗敗或惡狀

五升層

  1. 主值(5 分應):部修、回滾、擴(獨至 30 分)
  2. 副值(15 分後自):增查支
  3. 隊領(架決):庫變、廠升、事故 > 1 時
  4. 事故指揮(跨隊合):多隊、客通、事故 > 2 時
  5. executive(C 級):大影(>50% 用戶)、SLA 破、媒/PR、斷 > 4 時

升程

  1. 通標附:當前狀、影、所行、所需助、面板鏈
  2. 需者交:分時、行、權,續可得
  3. 勿默:每 15 分更、問、饋

聯目:守表含角、Slack、電、PagerDuty 為:

  • Platform/Database/Security/Network 隊
  • 事故指揮
  • 外廠(AWS、庫廠、CDN 供)

得:升準明、聯信易得、升路合組結構。

敗則:

  • 驗聯信當前(每季試)
  • 加決樹為何時升
  • 含升辭之例
  • 錄各層應時期

第五步:立通模

Extended Examples 為全內與外模含全格。

供事故更之預書辭。

內模(Slack #incident-response):

  1. 初宣

    🚨 INCIDENT: [Title] | Severity: [Critical/High/Medium]
    Impact: [users/services] | Owner: @username | Dashboard: [link]
    Quick Summary: [1-2 sentences] | Next update: 15 min
    
  2. 進更(每 15-30 分):

    📊 UPDATE #N | Status: [Investigating/Mitigating/Monitoring]
    Actions: [what we tried and outcomes]
    Theory: [what we think is happening]
    Next: [planned actions]
    
  3. 緩畢

    ✅ MITIGATION | Metrics: Error [before→after], Latency [before→after]
    Root Cause: [brief or "investigating"] | Monitoring 30min before resolved
    
  4. 🎉 RESOLVED | Duration: [time] | Root Cause + Impact + Follow-up actions
    
  5. 假警:無影、無續行

外模(狀頁):

  • :查中、始時、15 分內次更
  • :因已識(客向)、修中、估解
  • :解時、根因(簡)、時長、防

客郵模:時序、影述、解、防、補(若用)

得:模於事故時省時、保通一致、減應者認知擔。

敗則:

  • 模配公司通風
  • 為常事故類預填模
  • 立 Slack 流/bot 自填模
  • 事故回顧時察模

第六步:連行冊於監

Extended Examples 為全 Prometheus 警設與 Grafana 面板 JSON。

整行冊於警與面板。

加行冊鏈於 Prometheus 警

- alert: HighErrorRate
  annotations:
    runbook_url: "https://wiki.example.com/runbooks/high-error-rate"
    dashboard_url: "https://grafana.example.com/d/service-overview"
    incident_channel: "#incident-platform"

嵌速診鏈於行冊

  • 服覽面板
  • 訛率最後 1 時(Prometheus 直鏈)
  • 近訛記(Loki/Grafana Explore)
  • 近部(GitHub/CI)
  • PagerDuty 事故

立 Grafana 面板含行冊鏈(markdown 板列諸事故行冊附值與升信)

得:應者可自警或面板直入行冊,診查預填,一擊入相關具。

敗則:

  • 驗行冊 URL 無 VPN/登入可達
  • 用 URL 縮為複 Grafana/Prometheus 鏈
  • 每季試鏈以確不斷
  • 立常用行冊之瀏書籤

  • 行冊依一致模結構
  • 診程含具查與期值
  • 解步可行附明命
  • 升準與聯當前
  • 內與外通模已供
  • 行冊自監警與面板連
  • 行冊於事故模或實事故中已試
  • 應者饋已入行冊
  • 修史含日與作者已追
  • 行冊無證可達(或離線快取)

  • 過泛:行冊步糊如「察記」而無具查者非可行。具之
  • 陳信:行冊引舊系或命無用。每季察
  • 無驗步:解無驗致假正。常含「如何確已修」
  • 缺回滾程:每行宜有回滾計。勿陷應者於更劣
  • 假知:唯為家之行冊排新工。為輪中最少經者書
  • 無屬:無屬之行冊陳。授隊/人責更
  • 隱於證後:VPN/SSO 疾時不可達之行冊危時無用。快副本或用公 wiki

  • configure-alerting-rules - 連行冊於警注以即入
  • build-grafana-dashboards - 嵌行冊鏈於面板與診板
  • setup-prometheus-monitoring - 含 Prometheus 之診查於行冊程
  • define-slo-sli-sla - 引 SLO 影於事故嚴重分

GitHub リポジトリ

pjt222/agent-almanac
パス: i18n/wenyan/skills/write-incident-runbook
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

関連スキル

content-collections

メタ

このスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る