SKILL·C991A6

configure-alerting-rules

Name: configure-alerting-rules
Author: pjt222

pjt222

업데이트됨 1 month ago

9 조회

커뮤니케이션aiautomation

정보

이 스킬은 실행 가능한 사고 알림을 위해 라우팅 트리, Slack 및 PagerDuty와 같은 수신자, 억제 및 무음 기능을 갖춘 Prometheus Alertmanager를 구성합니다. 사전 예방적 모니터링 구현, 심각도별로 적절한 팀에 알림 전달, 그룹화 및 중복 제거를 통한 알림 피로 감소에 사용하세요. 온콜 시스템 통합이나 레거시 알림 시스템에서 Prometheus로 마이그레이션하는 데 이상적입니다.

빠른 설치

Claude Code

문서

name: configure-alerting-rules description: > Prometheus Alertmanager mit Routing-Baeumen, Empfaengern (Slack, PagerDuty, E-Mail), Inhibierungsregeln, Stummschaltungen und Benachrichtigungsvorlagen fuer handlungsorientiertes Incident-Alerting konfigurieren. Verwenden, wenn proaktives Monitoring mit automatisierter Incident-Erkennung implementiert wird, Alerts basierend auf Schweregrad an das entsprechende Team geroutet werden, Alert-Ueberlastung durch Gruppierung und Deduplizierung reduziert wird, mit On-Call-Systemen wie PagerDuty integriert wird oder von Legacy-Alerting zu Prometheus-basiertem Alerting migriert wird. locale: de source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Write Edit Bash Grep Glob metadata: author: Philipp Thoss version: "1.0" domain: observability complexity: intermediate language: multi tags: alertmanager, alerting, routing, pagerduty, slack

Alerting-Regeln konfigurieren

Prometheus-Alerting-Regeln und Alertmanager fuer zuverlaessige, handlungsorientierte Incident-Benachrichtigungen einrichten.

Unter Extended Examples sind vollstaendige Konfigurationsdateien und Templates verfuegbar.

Wann verwenden

Proaktives Monitoring mit automatisierter Incident-Erkennung implementieren
Alerts basierend auf Schweregrad und Service-Eigentuemer an entsprechende Teams routen
Alert-Ueberlastung durch intelligente Gruppierung und Deduplizierung reduzieren
Monitoring mit On-Call-Systemen integrieren (PagerDuty, Opsgenie)
Eskalationsrichtlinien fuer kritische Produktionsprobleme etablieren
Von Legacy-Monitoring-Systemen zu Prometheus-basiertem Alerting migrieren
Handlungsorientierte Alerts erstellen, die Responder zur Loesung fuehren

Eingaben

Pflichtfeld: Prometheus-Metriken fuer Alerts (Fehlerquoten, Latenz, Saettigung)
Pflichtfeld: On-Call-Rotation und Eskalationsrichtlinien
Optional: Vorhandene Alert-Definitionen zur Migration
Optional: Benachrichtigungskanaele (Slack, E-Mail, PagerDuty)
Optional: Runbook-Dokumentation fuer gaengige Alerts

Vorgehensweise

Schritt 1: Alertmanager bereitstellen

Alertmanager installieren und konfigurieren, um Alerts von Prometheus zu empfangen.

Docker-Compose-Deployment (Grundstruktur):

version: '3.8'
services:
  alertmanager:
    image: prom/alertmanager:v0.26.0
    ports:
      - "9093:9093"
    volumes:
      - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml
    # ... (see EXAMPLES.md for complete configuration)

Grundlegende Alertmanager-Konfiguration (alertmanager.yml Auszug):

global:
  resolve_timeout: 5m
  slack_api_url: 'https://hooks.slack.com/services/YOUR/SLACK/WEBHOOK'

route:
  receiver: 'default-receiver'
  group_by: ['alertname', 'cluster', 'service']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 4h

  routes:
    - match:
        severity: critical
      receiver: pagerduty-critical

# ... (see EXAMPLES.md for complete routing, inhibition rules, and receivers)

Prometheus fuer Alertmanager konfigurieren (prometheus.yml):

alerting:
  alertmanagers:
    - static_configs:
        - targets:
            - alertmanager:9093
      timeout: 10s
      api_version: v2

Erwartet: Alertmanager-UI unter http://localhost:9093 zugaenglich, Prometheus "Status > Alertmanagers" zeigt UP-Status.

Bei Fehler:

Alertmanager-Logs pruefen: docker logs alertmanager
Pruefen, ob Prometheus Alertmanager erreichen kann: curl http://alertmanager:9093/api/v2/status
Webhook-URLs testen: curl -X POST <SLACK_WEBHOOK_URL> -d '{"text":"test"}'
YAML-Syntax validieren: amtool check-config alertmanager.yml

Schritt 2: Alerting-Regeln in Prometheus definieren

Alerting-Regeln erstellen, die bei Bedingungserfuellung ausloesen.

Alerting-Regeldatei erstellen (/etc/prometheus/rules/alerts.yml Auszug):

groups:
  - name: instance_alerts
    interval: 30s
    rules:
      - alert: InstanceDown
        expr: up == 0
        for: 5m
        labels:
          severity: critical
          team: infrastructure
        annotations:
          summary: "Instance {{ $labels.instance }} is down"
          description: "{{ $labels.instance }} has been down for >5min."
          runbook_url: "https://wiki.example.com/runbooks/instance-down"

      - alert: HighCPUUsage
        expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "High CPU usage on {{ $labels.instance }}"
          # ... (see EXAMPLES.md for complete alerts)

Best Practices fuer Alert-Design:

for-Dauer: Verhindert flatternde Alerts. 5-10 Minuten fuer die meisten Alerts verwenden.
Beschreibende Annotationen: Aktuellen Wert, betroffene Ressource und Runbook-Link einschliessen.
Schweregrade: critical (ruft On-Call), warning (untersuchen), info (zur Information)
Team-Labels: Ermoeglicht Routing zum richtigen Team/Kanal
Runbook-Links: Jeder Alert sollte eine Runbook-URL haben

Regeln in Prometheus laden:

# prometheus.yml
rule_files:
  - "rules/*.yml"

Validieren und neu laden:

promtool check rules /etc/prometheus/rules/alerts.yml
curl -X POST http://localhost:9090/-/reload

Erwartet: Alerts auf der Prometheus-"Alerts"-Seite sichtbar, Alerts loesen bei ueberschrittenen Schwellenwerten aus, Alertmanager empfaengt ausgeloeste Alerts.

Bei Fehler:

Prometheus-Logs auf Regelauswertungsfehler pruefen
Regelsyntax mit promtool check rules pruefen
Alert-Abfragen unabhaengig in der Prometheus-UI testen
Alert-Zustandsuebertragungen pruefen: Inactive → Pending → Firing

Schritt 3: Benachrichtigungsvorlagen erstellen

Lesbare, handlungsorientierte Benachrichtigungsmeldungen gestalten.

Vorlagendatei erstellen (/etc/alertmanager/templates/default.tmpl Auszug):

{{ define "slack.default.title" }}
[{{ .Status | toUpper }}] {{ .GroupLabels.alertname }}
{{ end }}

{{ define "slack.default.text" }}
{{ range .Alerts }}
*Alert:* {{ .Labels.alertname }}
*Severity:* {{ .Labels.severity }}
*Summary:* {{ .Annotations.summary }}
{{ if .Annotations.runbook_url }}*Runbook:* {{ .Annotations.runbook_url }}{{ end }}
{{ end }}
{{ end }}

# ... (see EXAMPLES.md for complete email and PagerDuty templates)

Vorlagen in Empfaengern verwenden:

receivers:
  - name: 'slack-custom'
    slack_configs:
      - channel: '#alerts'
        title: '{{ template "slack.default.title" . }}'
        text: '{{ template "slack.default.text" . }}'

Erwartet: Benachrichtigungen konsistent formatiert, enthalten alle relevanten Kontextinformationen, handlungsorientiert mit Runbook-Links.

Bei Fehler:

Vorlagen-Rendering testen: amtool template test --config.file=alertmanager.yml
Vorlagensyntaxfehler in Alertmanager-Logs pruefen
{{ . | json }} zur Fehlersuche in der Vorlage-Datenstruktur verwenden

Schritt 4: Routing und Gruppierung konfigurieren

Alert-Zustellung mit intelligenten Routing-Regeln optimieren.

Erweiterte Routing-Konfiguration (Auszug):

route:
  receiver: 'default-receiver'
  group_by: ['alertname', 'cluster', 'service']
  group_wait: 30s

  routes:
    - match:
        team: platform
      receiver: 'team-platform'
      routes:
        - match:
            severity: critical
          receiver: 'pagerduty-platform'
          group_wait: 10s
          repeat_interval: 15m
          continue: true   # Also send to Slack

# ... (see EXAMPLES.md for complete routing with time intervals)

Gruppierungsstrategien:

# Group by alertname: All HighCPU alerts bundled together
group_by: ['alertname']

# Group by alertname AND cluster: Separate notifications per cluster
group_by: ['alertname', 'cluster']

Erwartet: Alerts werden an korrekte Teams geroutet, logisch gruppiert, Zeitplanung angemessen fuer Schweregrad.

Bei Fehler:

Routing testen: amtool config routes test --config.file=alertmanager.yml --alertname=HighCPU --label=severity=critical
Routing-Baum pruefen: amtool config routes show --config.file=alertmanager.yml
continue: true pruefen, wenn Alert mehrere Routen treffen soll

Schritt 5: Inhibierung und Stummschaltung implementieren

Alert-Rauschen mit Inhibierungsregeln und temporaeren Stummschaltungen reduzieren.

Inhibierungsregeln (abhaengige Alerts unterdruecken):

inhibit_rules:
  # Cluster down suppresses all node alerts in that cluster
  - source_match:
      alertname: 'ClusterDown'
      severity: 'critical'
    target_match_re:
      alertname: '(InstanceDown|HighCPU|HighMemory)'
    equal: ['cluster']

  # Service down suppresses latency and error alerts
  - source_match:
      alertname: 'ServiceDown'
    target_match_re:
      alertname: '(HighLatency|HighErrorRate)'
    equal: ['service', 'namespace']

# ... (see EXAMPLES.md for more inhibition patterns)

Stummschaltungen programmgesteuert erstellen:

# Silence during maintenance
amtool silence add \
  instance=app-server-1 \
  --author="ops-team" \
  --comment="Scheduled maintenance" \
  --duration=2h

# List and manage silences
amtool silence query
amtool silence expire <SILENCE_ID>

Erwartet: Inhibierung reduziert Kaskaden-Alerts automatisch, Stummschaltungen verhindern Benachrichtigungen waehrend geplanter Wartungsarbeiten.

Bei Fehler:

Inhibierungslogik mit Live-Alerts testen
"Silences"-Tab in der Alertmanager-UI pruefen
Sicherstellen, dass Stummschaltungs-Matcher exakt sind (Labels muessen perfekt uebereinstimmen)

Schritt 6: Mit externen Systemen integrieren

Alertmanager mit PagerDuty, Opsgenie, Jira usw. verbinden.

PagerDuty-Integration (Auszug):

receivers:
  - name: 'pagerduty'
    pagerduty_configs:
      - routing_key: 'YOUR_INTEGRATION_KEY'
        severity: '{{ .CommonLabels.severity }}'
        description: '{{ range .Alerts.Firing }}{{ .Annotations.summary }}{{ end }}'
        details:
          firing: '{{ .Alerts.Firing | len }}'
          alertname: '{{ .GroupLabels.alertname }}'
        # ... (see EXAMPLES.md for complete integration examples)

Webhook fuer benutzerdefinierte Integrationen:

receivers:
  - name: 'webhook-custom'
    webhook_configs:
      - url: 'https://your-webhook-endpoint.com/alerts'
        send_resolved: true

Erwartet: Alerts erstellen Incidents in PagerDuty, erscheinen in Team-Kommunikationskanaelen, loesen On-Call-Eskalationen aus.

Bei Fehler:

API-Schluessel/Tokens auf Gueltigkeit pruefen
Netzwerkkonnektivitaet zu externen Services pruefen
Webhook-Endpunkte unabhaengig mit curl testen
Debug-Modus aktivieren: --log.level=debug

Validierung

Haeufige Stolperfallen

Alert-Ueberlastung: Zu viele niedrig priorisierte Alerts fuehren dazu, dass Responder kritische ignorieren. Strenge Schwellenwerte setzen, Inhibierung verwenden.
Fehlende for-Dauer: Alerts ohne for loesen bei vorueber gehenden Spitzen aus. Immer 5-10-Minuten-Fenster verwenden.
Zu breite Gruppierung: Gruppierung mit ['...'] sendet einzelne Benachrichtigungen. Spezifische Label-Gruppierung verwenden.
Keine Runbook-Links: Alerts ohne Runbooks lassen Responder raten. Jeder Alert braucht eine Runbook-URL.
Falscher Schweregrad: Warnungen faelschlicherweise als kritisch zu bezeichnen, desensibilisiert das Team. Critical nur fuer Notfaelle reservieren.
Vergessene Stummschaltungen: Stummschaltungen ohne Ablaufzeit koennen echte Probleme verbergen. Immer Endzeiten setzen.
Einzelne Route: Alle Alerts in einen Kanal verliert Kontext. Teamspezifisches Routing verwenden.
Keine Inhibierung: Kaskaden-Alerts waehrend Ausfaellen erzeugen Rauschen. Inhibierungsregeln implementieren.

GitHub 저장소

pjt222/agent-almanac

경로: i18n/de/skills/configure-alerting-rules

agentsagentskillsai-assisted-developmentclaude-codeskillsteams

FAQ

Frequently asked questions

What is the configure-alerting-rules skill?

configure-alerting-rules is a Claude Skill by pjt222. Skills package instructions and resources that Claude loads on demand, so Claude can perform configure-alerting-rules-related tasks without extra prompting.

How do I install configure-alerting-rules?

Use the install commands on this page: add configure-alerting-rules to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does configure-alerting-rules belong to?

configure-alerting-rules is in the Communication category, tagged ai and automation.

Is configure-alerting-rules free to use?

Yes. configure-alerting-rules is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

연관 스킬

himalaya-email-manager

커뮤니케이션

이 Claude Skill은 IMAP을 통해 Himalaya CLI 도구를 이용한 이메일 관리를 가능하게 합니다. 개발자들이 자연어 쿼리로 IMAP 계정의 이메일을 검색하고, 요약하고, 삭제할 수 있게 해줍니다. 일일 요약 수신이나 Claude에서 직접 배치 작업 수행과 같은 자동화된 이메일 워크플로우에 활용하세요.

스킬 보기

imsg

커뮤니케이션

imsg는 macOS용 CLI 도구로, Messages.app을 통해 iMessage/SMS와 프로그래밍 방식으로 상호작용할 수 있게 해줍니다. 이 도구를 사용하면 개발자가 채팅 목록을 확인하고, 메시지 기록을 조회하며, 대화를 실시간으로 모니터링하고, 메시지나 첨부 파일을 보낼 수 있습니다. 이 스킬을 활용하여 메시징 작업을 자동화하거나 개발 워크플로우에 iMessage/SMS 기능을 통합해 보세요.

스킬 보기

internationalization-i18n

커뮤니케이션

이 Claude Skill은 애플리케이션에 국제화(i18n)와 현지화를 구현하기 위한 포괄적인 지침을 제공합니다. i18next 및 gettext와 같은 라이브러리를 활용하여 메시지 추출, 번역 관리, 로케일별 형식 지정, RTL(오른쪽에서 왼쪽) 지원 등 주요 작업을 다룹니다. 다국어 애플리케이션을 구축하거나 국제 사용자를 위한 현지화 기능을 추가할 때 활용하세요.

스킬 보기

wacli

커뮤니케이션

wacli는 WhatsApp Web 프로토콜을 통해 WhatsApp 메시징, 검색 및 동기화를 가능하게 하는 명령줄 도구입니다. 주로 Clawdis 워크플로우 내에서 자동화 처리를 위해 사용되지만, 메시지 전송, 채팅 동기화 또는 기록 조회를 위해 직접 호출할 수도 있습니다. 주요 기능으로는 QR 기반 인증, 지속적인 백그라운드 동기화, 텍스트 및 파일 전송 기능이 포함됩니다.

스킬 보기

configure-alerting-rules

정보

빠른 설치

Claude Code

문서

Alerting-Regeln konfigurieren

Wann verwenden

Eingaben

Vorgehensweise

Schritt 1: Alertmanager bereitstellen

Schritt 2: Alerting-Regeln in Prometheus definieren

Schritt 3: Benachrichtigungsvorlagen erstellen

Schritt 4: Routing und Gruppierung konfigurieren

Schritt 5: Inhibierung und Stummschaltung implementieren

Schritt 6: Mit externen Systemen integrieren

Validierung

Haeufige Stolperfallen

Verwandte Skills

GitHub 저장소

Frequently asked questions

What is the configure-alerting-rules skill?

How do I install configure-alerting-rules?

What category does configure-alerting-rules belong to?

Is configure-alerting-rules free to use?

연관 스킬