MCP HubMCP Hub
스킬 목록으로 돌아가기

detect-anomalies-aiops

pjt222
업데이트됨 2 days ago
9 조회
17
2
17
GitHub에서 보기
기타aiapi

정보

이 AIOps 기술은 Isolation Forest, Prophet, LSTM과 같은 시계열 모델을 사용하여 운영 메트릭의 이상 징후를 탐지합니다. 정적 임계값 방식을 넘어서 경고를 상호 연관시키고 근본 원인 분석을 수행함으로써 경고 피로도를 줄입니다. 경고 양에 압도될 때, 계절적 패턴을 다룰 때, 또는 복잡한 다중 메트릭 문제를 사전에 예측해야 할 때 사용하세요.

빠른 설치

Claude Code

추천
기본
npx skills add pjt222/agent-almanac -a claude-code
플러그인 명령대체
/plugin add https://github.com/pjt222/agent-almanac
Git 클론대체
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/detect-anomalies-aiops

Claude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요

문서

AIOps 之異常察

完整配置與範本詳見 擴展範例

以機器學習察運維指標之異常,關聯告警,減誤報。

用時

  • 運維隊為告警之量所困(>100/日)
  • 須察超靜閾之多指標複合異常
  • 季節性模式令靜閾失效
  • 欲於事件前預察以主動應對
  • 須關聯告警以識根因
  • 監控系統生誤報過多
  • 欲察性能微降之勢

  • 必要:監控系統之時序指標(CPU、記憶體、延遲、錯誤率)
  • 必要:歷史資料(至少 30-90 日)
  • 可選:帶標籤之告警歷史(真誤報)
  • 可選:系統拓撲(服務依賴)
  • 可選:用於關聯之日誌資料
  • 可選:部署/變更事件以作上下文

第一步:立環境並載資料

裝依賴並備時序資料以作分析。

# Create virtual environment
python -m venv venv
source venv/bin/activate

# Install anomaly detection libraries
pip install prophet scikit-learn pandas numpy
pip install tensorflow keras  # for LSTM models
pip install pyod  # Python Outlier Detection library
pip install statsmodels  # for statistical methods
pip install prometheus-api-client  # if using Prometheus

# Visualization
pip install plotly matplotlib seaborn

載並備資料:

# aiops/data_loader.py
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from typing import List, Dict
import logging

logging.basicConfig(level=logging.INFO)
# ... (see EXAMPLES.md for complete implementation)

得: 時序資料以規律間隔載入,缺值已處,特徵已為 ML 模型所工程。

敗則: Prometheus 連接失敗則驗 URL 與網絡;資料有缺則用前向填充或插值;確保時戳列為 datetime 型;察大日期範圍之記憶體之虞(分塊處之)。

第二步:施 Isolation Forest 察多變量異常

以無監督 Isolation Forest 算法察異常。

# aiops/isolation_forest_detector.py
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np
from typing import Dict, List
import joblib

# ... (see EXAMPLES.md for complete implementation)

得: 模型於歷史資料上訓練畢,異常已帶分標出,常 0.5-2% 之點標為異常。

敗則: 異常過多(>5%)則減 contamination 參數或於更潔基期重訓;過少(<0.1%)則增 contamination 或察特徵縮放;驗特徵有足夠方差。

第三步:施 Prophet 作時序預測與異常察

用 Facebook Prophet 建季節模型並察偏離。

# aiops/prophet_detector.py
from prophet import Prophet
import pandas as pd
import numpy as np
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得: Prophet 模型捕捉日/週季節性,實值落於 99% 置信區間外時察為異常,並生預測以作容量規劃。

敗則: Prophet 過慢(每指標 >5 min)則縮歷史為 30 日或閉 weekly_seasonality;誤報過多則增 interval_width 至 0.995;缺季節模式則加自定義季節;確保時戳時區一致。

第四步:關聯告警並識根因

將相關異常聚為事件並識潛在根因。

# aiops/alert_correlation.py
import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
from typing import List, Dict
from datetime import timedelta
import networkx as nx

# ... (see EXAMPLES.md for complete implementation)

得: 相關異常聚為事件,根因基於依賴圖而識,生事件摘要以資調查。

敗則: 諸異常皆分為獨立事件則增 time_window_minutes;根因不明則按架構明定 metric_relationships;驗時戳序正確。

第五步:整合於告警系統

發帶上下文之智告警並抑噪。

# aiops/intelligent_alerting.py
import requests
import logging
from typing import Dict, List
from datetime import datetime, timedelta
import json

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得: 高嚴重性事件觸 PagerDuty 呼叫,中嚴重性至 Slack,低嚴重性僅記錄;重複告警於 15 分鐘窗內被抑。

敗則: 先以 curl 測 webhook URL;驗嚴重性之算出合理值(0.5-0.9 範圍);察限速未抑諸告警;確保 last_alerts 追蹤之時區處理正確。

第六步:部署為持續監控服務

立定期運行之自動化流水線。

# aiops/monitoring_service.py
import schedule
import time
import logging
from datetime import datetime, timedelta
from data_loader import MetricsDataLoader
from isolation_forest_detector import IsolationForestDetector
from prophet_detector import ProphetAnomalyDetector
# ... (see EXAMPLES.md for complete implementation)

得: 服務持續運行,每 5 分鐘察異常,事件時發告警,諸活動皆記。

敗則: 驗調度進程存活(生產用 systemd/supervisor);察 Prometheus 連通;確保模型成功載入;若服務停則施 dead man 告警;察記憶體用量(記憶體增長則周期重載模型)。

  • 歷史資料正載,無缺時戳
  • Isolation Forest 察測試集中已知異常
  • Prophet 模型於可視化中捕日/週季節性
  • 告警關聯聚時間相關之異常
  • 根因察正識上游問題
  • 智告警抑重複告警
  • 嚴重性之算生合理分(0.5-0.9)
  • 監控服務連運 7 日以上不崩
  • 誤報率 < 10%(以帶標籤資料驗)
  • 關鍵事件真正率 > 80%

  • 於異常資料上訓:確保訓練基期潔(無事件);手動審或用帶標籤資料
  • 略季節性:靜模型於日/週模式上失。用 Prophet 或加時間特徵
  • 閾過敏:99% 置信區間或標正常峰值;始於 99.5% 依誤報調之
  • 不處缺資料:指標有缺致模型誤;施含插值之穩健預處理
  • 低嚴重性致告警疲:過濾低嚴重性告警;專注高置信異常
  • 略系統拓撲:獨立視諸指標遺級聯故障;明定依賴關係
  • 模型漂移:舊資料訓練之模型會陳舊;月重訓或系統變時重訓
  • 資源爭用:察諸指標費資源;優先關鍵服務或抽樣指標

  • monitor-model-drift — 察異常察模型之退化
  • monitor-data-integrity — 異常察前之資料質量檢查
  • setup-prometheus-monitoring — 收集運維指標
  • forecast-operational-metrics — 以 Prophet 預測作容量規劃

GitHub 저장소

pjt222/agent-almanac
경로: i18n/wenyan/skills/detect-anomalies-aiops
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

연관 스킬

llamaguard

기타

LlamaGuard는 폭력 및 혐오 발언 등 6가지 안전 범주에서 LLM 입력과 출력을 조정하기 위한 Meta의 70-80억 파라미터 모델입니다. 94-95% 정확도를 제공하며 vLLM, Hugging Face 또는 Amazon SageMaker를 사용해 배포할 수 있습니다. 이 기술을 사용하여 AI 애플리케이션에 콘텐츠 필터링 및 안전 가드레일을 손쉽게 통합하세요.

스킬 보기

cost-optimization

기타

이 Claude Skill은 리소스 적정화, 태깅 전략, 지출 분석을 통해 개발자들이 클라우드 비용을 최적화할 수 있도록 지원합니다. AWS, Azure, GCP에서 클라우드 비용을 절감하고 비용 거버넌스를 구현하기 위한 프레임워크를 제공합니다. 인프라 비용을 분석하거나, 리소스를 적정화하거나, 예산 제약을 충족해야 할 때 사용하세요.

스킬 보기

quantizing-models-bitsandbytes

기타

이 스킬은 bitsandbytes를 사용하여 LLM을 8비트 또는 4비트 정밀도로 양자화하며, 최소한의 정확도 손실로 50-75%의 메모리 감소를 달성합니다. 제한된 GPU 메모리에서 더 큰 모델을 실행하거나 추론을 가속화하는 데 이상적이며, INT8, NF4, FP4와 같은 형식을 지원합니다. 이 스킬은 HuggingFace Transformers와 통합되어 QLoRA 학습 및 8비트 옵티마이저를 가능하게 합니다.

스킬 보기

dispatching-parallel-agents

기타

이 Claude Skill은 3개 이상의 독립적인 문제를 동시에 조사하고 해결하기 위해 다중 에이전트를 배치합니다. 공유 상태나 의존성 없이 해결 가능한 무관련 장애 시나리오에 맞게 설계되었습니다. 핵심 기능은 병렬 문제 해결로, 각 독립 문제 영역마다 하나의 에이전트를 할당하여 효율성을 극대화합니다.

스킬 보기