返回技能列表

write-incident-runbook

pjt222
更新于 6 days ago
23 次查看
17
2
17
在 GitHub 上查看
wordai

关于

This Claude Skill generates structured incident runbooks to standardize and document response procedures. It creates runbooks containing diagnostic steps, resolution actions, escalation paths, and communication templates. Use it to reduce MTTR for recurring alerts, train new on-call members, and link alerts directly to resolution procedures.

快速安装

Claude Code

推荐
主要方式
npx skills add pjt222/agent-almanac -a claude-code
插件命令备选方式
/plugin add https://github.com/pjt222/agent-almanac
Git 克隆备选方式
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/write-incident-runbook

在 Claude Code 中复制并粘贴此命令以安装该技能

技能文档

書事故行冊

立可行行冊以引應者過診與解。

  • 錄復警或事故之應程→用
  • 標 on-call 輪事故應→用
  • 以清診步減 MTTR→用
  • 為新員建事故應訓→用
  • 立升路與通協→用
  • 移部落知於書文→用
  • 警鏈解程(警註)→用

  • :事故或警名/述
  • :歷事故數與解式
  • :診詢(Prometheus、日、跡)
  • :升聯與通道
  • :前事故覆盤

一:擇行冊模構

全模檔見 Extended Examples

按事故型與複擇模。

基行冊模構

# [Alert/Incident Name] Runbook
## Overview | Severity | Symptoms
## Diagnostic Steps | Resolution Steps
## Escalation | Communication | Prevention | Related

進 SRE 行冊模(節):

# [Service Name] - [Incident Type] Runbook

## Metadata
- Service, Owner, Severity, On-Call, Last Updated

## Diagnostic Phase
### Quick Health Check (< 5 min): Dashboard, error rate, deployments
### Detailed Investigation (5-20 min): Metrics, logs, traces, failure patterns
# ... (see EXAMPLES.md for complete template)

關模件:

  • :服屬、嚴、輪
  • 診階:速察→詳究→敗式
  • 解階:即減→根修→驗
  • :標與聯路
  • :內外模
  • :短長期行

得:擇模合事故複,節宜服型。

敗:

  • 由基模始、按事故式迭
  • 察業例(Google SRE 書、商行冊)
  • 首用後按團饋改模

二:錄診程

全診詢與決樹見 Extended Examples

立步步究程附特詢。

六步診清單

  1. 驗服健:健端察與運時度

    curl -I https://api.example.com/health  # Expected: HTTP 200 OK
    
    up{job="api-service"}  # Expected: 1 for all instances
    
  2. 察誤率:今誤百與按端分

    sum(rate(http_requests_total{status=~"5.."}[5m]))
    / sum(rate(http_requests_total[5m])) * 100  # Expected: < 1%
    
  3. 析日:近誤與 Loki 頂誤訊

    {job="api-service"} |= "error" | json | level="error"
    
  4. 察資用:CPU、記、連池

    avg(rate(container_cpu_usage_seconds_total{pod=~"api-service.*"}[5m])) * 100
    # Expected: < 70%
    
  5. 審近變:部署、git 提、設變

  6. 察依:下游服健、庫/API 延

敗式決樹(節):

  • 服死乎?→察諸 pod/實
  • 誤率升乎?→察特誤型(5xx、閘、庫、超時)
  • 何始?→部署後(還)、漸(資漏)、驟(流/依)

得:診程具體、含期 vs 實值、引應者究。

敗:

  • 錄前於實察系試詢
  • 含表板影為視參
  • 加「常誤」節為常漏步
  • 按應者饋迭

三:定解程

五解選之全命與還程見 Extended Examples

錄步步補與還選。

五解選(簡摘):

  1. 還部署(最速):部署後誤

    kubectl rollout undo deployment/api-service
    

    驗→察→確解(誤率 < 1%、延正、無警)

  2. 擴資:CPU/記高、連池竭

    kubectl scale deployment/api-service --replicas=$((current * 3/2))
    
  3. 重啟服:記漏、連黏、緩污

    kubectl rollout restart deployment/api-service
    
  4. 特旗/斷器:特能誤或外依敗

    kubectl set env deployment/api-service FEATURE_NAME=false
    
  5. 庫補:庫連、慢詢、池竭

    -- Kill long-running queries, restart connection pool, increase pool size
    

通驗清單

  • 誤率 < 1%
  • 延 P99 < 閾
  • 量於基線
  • 資用健(CPU < 70%、Memory < 80%)
  • 依健
  • 用面試過
  • 無活警

還程:解惡況→暫/取→還→重評

得:解步清、含驗察、各行附還選。

敗:

  • 為複程加更細步
  • 含表或圖為多步流
  • 錄命出(期 vs 實)
  • 為複解程建別行冊

四:立升路

全升級與聯目模見 Extended Examples

定何時何升事故。

即升時

  • 用面斷 > 15 分
  • SLO 誤算 > 10% 耗
  • 數失/壞或安洩疑
  • 20 分內不能辨根因
  • 補敗或惡況

五升級

  1. 首 On-Call(5 分應):施修、還、擴(單獨至 30 分)
  2. 次 On-Call(15 分後自動):增究支
  3. 團頭(構決):庫變、商升、事故 > 1 時
  4. 事故指(跨團協):多團、用通、事故 > 2 時
  5. (C 級):大影(>50% 用)、SLA 違、媒/PR、斷 > 4 時

升程

  1. 通標附:今態、影、已行、需助、表板鏈
  2. 須交:分時、行、權、留候
  3. 勿默:每 15 分更、問、饋

聯目:附角、Slack、電、PagerDuty 表予:

  • 平/庫/安/網團
  • 事故指
  • 外商(AWS、庫商、CDN 商)

得:升標清、聯易得、升路合機構構。

敗:

  • 驗聯為今(季試)
  • 加升決樹
  • 含升訊例
  • 錄各級應時期

五:建通模

全內外模附全式見 Extended Examples

予預書訊為事故更。

內模(Slack #incident-response):

  1. 初告

    🚨 INCIDENT: [Title] | Severity: [Critical/High/Medium]
    Impact: [users/services] | Owner: @username | Dashboard: [link]
    Quick Summary: [1-2 sentences] | Next update: 15 min
    
  2. 進更(每 15-30 分):

    📊 UPDATE #N | Status: [Investigating/Mitigating/Monitoring]
    Actions: [what we tried and outcomes]
    Theory: [what we think is happening]
    Next: [planned actions]
    
  3. 減畢

    ✅ MITIGATION | Metrics: Error [before→after], Latency [before→after]
    Root Cause: [brief or "investigating"] | Monitoring 30min before resolved
    
  4. 🎉 RESOLVED | Duration: [time] | Root Cause + Impact + Follow-up actions
    
  5. 偽警:無影、無隨

外模(態頁):

  • :究中、始時、15 分內次更
  • :因辨(用友)、施修、估解
  • :解時、根因(簡)、時、防措

用信模:時線、影述、解、防、補(若應)

得:模省事故時、確一通、減應者認負。

敗:

  • 客化模合公司通格
  • 預填常事故型
  • 建 Slack 流/機為自動填模
  • 事故覆盤審模

六:行冊鏈察

全 Prometheus 警設與 Grafana 表板 JSON 見 Extended Examples

整行冊於警與表板。

Prometheus 警加行冊鏈

- alert: HighErrorRate
  annotations:
    runbook_url: "https://wiki.example.com/runbooks/high-error-rate"
    dashboard_url: "https://grafana.example.com/d/service-overview"
    incident_channel: "#incident-platform"

行冊嵌速診鏈

  • 服覽表板
  • 末 1 時誤率(Prometheus 直鏈)
  • 近誤日(Loki/Grafana Explore)
  • 近部署(GitHub/CI)
  • PagerDuty 事故

建 Grafana 表板面附行冊鏈(markdown 面列諸事故行冊附 on-call 與升信)

得:應者可由警或表板直訪行冊、診詢預填、一擊訪關工。

敗:

  • 驗行冊 URL 無 VPN/登入可訪
  • 為複 Grafana/Prometheus 鏈用 URL 縮
  • 季試鏈確不破
  • 為常用行冊建瀏書籤

  • 行冊從一致模構
  • 診程含特詢與期值
  • 解步可行附清命
  • 升標與聯為今
  • 通模予內外受
  • 行冊由察警與表板鏈
  • 行冊於事故模或實事故試
  • 應者饋納行冊
  • 修史跡附日與作者
  • 行冊無認可訪(或暫存離線)

  • 過泛:行冊含泛步如「察日」無特詢→不可行。具體
  • 舊信:行冊參舊系或命→廢。季審
  • 無驗步:解無驗致偽過。恆含「如何確修」
  • 缺還程:每行應有還計。勿陷應者於更劣態
  • 假知:僅專之行冊排新工。為輪中最少經之人書
  • 無屬:無主之行冊舊。派團/人責更
  • 匿認後:VPN/SSO 疾時不可訪之行冊危時無用。暫複或用公 wiki

  • configure-alerting-rules - 鏈行冊於警註以事故時即訪
  • build-grafana-dashboards - 嵌行冊鏈於表板與診面
  • setup-prometheus-monitoring - 行冊程中含 Prometheus 詢
  • define-slo-sli-sla - 事故嚴分中參 SLO 影

GitHub 仓库

pjt222/agent-almanac
路径: i18n/wenyan-ultra/skills/write-incident-runbook
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

相关推荐技能

content-collections

Content Collections 是一个 TypeScript 优先的构建工具,可将本地 Markdown/MDX 文件转换为类型安全的数据集合。它专为构建博客、文档站和内容密集型 Vite+React 应用而设计,提供基于 Zod 的自动模式验证。该工具涵盖从 Vite 插件配置、MDX 编译到生产环境部署的完整工作流。

查看技能

polymarket

这个Claude Skill为开发者提供完整的Polymarket预测市场开发支持,涵盖API调用、交易执行和市场数据分析。关键特性包括实时WebSocket数据流,可监控实时交易、订单和市场动态。开发者可用它构建预测市场应用、实施交易策略并集成实时市场预测功能。

查看技能

creating-opencode-plugins

该Skill帮助开发者创建OpenCode插件,用于接入命令、文件、LSP等25+种事件。它提供了插件结构、事件API规范和JavaScript/TypeScript实现模式,适合需要拦截操作、扩展功能或自定义事件处理的场景。开发者可通过它快速构建响应式模块来增强OpenCode AI助手的能力。

查看技能

sglang

SGLang是一个专为LLM设计的高性能推理框架,特别适用于需要结构化输出的场景。它通过RadixAttention前缀缓存技术,在处理JSON、正则表达式、工具调用等具有重复前缀的复杂工作流时,能实现极速生成。如果你正在构建智能体或多轮对话系统,并追求远超vLLM的推理性能,SGLang是理想选择。

查看技能