スキル一覧に戻る

detect-anomalies-aiops

pjt222
更新日 6 days ago
18 閲覧
17
2
17
GitHubで表示
その他aiapi

について

このスキルは、時系列分析(Isolation Forest、Prophet、LSTM)、アラート相関、根本原因分析を用いて、運用メトリクスのAI駆動異常検知を実装します。単純な静的閾値を超えて、システムメトリクス、ログ、トレースにおける真の異常を知的に識別することで、アラート疲労を軽減します。運用チームがアラート量に圧倒されている場合、複雑な複数メトリクス異常を検出する場合、または季節パターンによって従来の閾値が効果を発揮しない場合にご利用ください。

クイックインストール

Claude Code

推奨
メイン
npx skills add pjt222/agent-almanac -a claude-code
プラグインコマンド代替
/plugin add https://github.com/pjt222/agent-almanac
Git クローン代替
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/detect-anomalies-aiops

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

AIOps 偵異

Extended Examples 以得全配檔與範。

施機學以偵運行指標之異、聯警、減偽陽。

  • 運隊受警量淹(> 100 警/日)
  • 宜偵雜多指標之異(非僅越閾)
  • 季節模致靜閾失效
  • 欲預用者見前之患(主動偵)
  • 宜聯警以識根因
  • 監視生過多偽陽
  • 欲偵微效降之勢

  • :監視系之時序指標(CPU、記憶、延、錯率)
  • :史數(至少 30-90 日)
  • :有標警史(真/偽陽)
  • :系拓撲(服務依)
  • :聯用之誌
  • :部署/變更事件為脈絡

一:備境並載數

裝依並備析之時序數。

# Create virtual environment
python -m venv venv
source venv/bin/activate

# Install anomaly detection libraries
pip install prophet scikit-learn pandas numpy
pip install tensorflow keras  # for LSTM models
pip install pyod  # Python Outlier Detection library
pip install statsmodels  # for statistical methods
pip install prometheus-api-client  # if using Prometheus

# Visualization
pip install plotly matplotlib seaborn

載並備數:

# aiops/data_loader.py
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from typing import List, Dict
import logging

logging.basicConfig(level=logging.INFO)
# ... (see EXAMPLES.md for complete implementation)

得:時序數已載於定隔,缺值已處,特徵已造供機學模。

敗:Prometheus 連失→驗 URL 及網路。數有隙→前填或插。時戳欄宜為 datetime 類。大域致記憶問題→分塊處。

二:施 Isolation Forest 以偵多變異常

以無監督 Isolation Forest 算偵異。

# aiops/isolation_forest_detector.py
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np
from typing import Dict, List
import joblib

# ... (see EXAMPLES.md for complete implementation)

得:模於史數訓,異已偵有分,常 0.5-2% 點標為異。

敗:異過多(> 5%)→減 contamination 參或於更淨基線重訓。過少(< 0.1%)→增 contamination 或查特徵縮。驗特徵有足方差。

三:施 Prophet 以時序預並偵異

用 Facebook Prophet 模季節並偵偏。

# aiops/prophet_detector.py
from prophet import Prophet
import pandas as pd
import numpy as np
from typing import Dict, Tuple
import logging

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:Prophet 模捕日/週季節,實值落 99% 信域外則偵為異,預以備容量計。

敗:Prophet 過慢(每指標 > 5 分)→減史至 30 日或關 weekly_seasonality。偽陽多→增 interval_width 至 0.995。缺季節模→加自定季節。時戳時區宜一致。

四:聯警並識根因

組相關異並識可能根因。

# aiops/alert_correlation.py
import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
from typing import List, Dict
from datetime import timedelta
import networkx as nx

# ... (see EXAMPLES.md for complete implementation)

得:相關異組為事件,根因由依圖識,事件摘為察。

敗:諸異各為獨事→增 time_window_minutes。根因不明→依架明定 metric_relationships。驗時戳序正。

五:整合警系

送含脈絡之智警,抑噪。

# aiops/intelligent_alerting.py
import requests
import logging
from typing import Dict, List
from datetime import datetime, timedelta
import json

logger = logging.getLogger(__name__)
# ... (see EXAMPLES.md for complete implementation)

得:高危事件發 PagerDuty 呼,中危至 Slack,低危僅誌,15 分窗內抑重。

敗:先以 curl 試 webhook URL。驗危度算之值合理(0.5-0.9)。查速限勿抑諸警。last_alerts 之時區處宜正。

六:部為持續監服

設動管定期運。

# aiops/monitoring_service.py
import schedule
import time
import logging
from datetime import datetime, timedelta
from data_loader import MetricsDataLoader
from isolation_forest_detector import IsolationForestDetector
from prophet_detector import ProphetAnomalyDetector
# ... (see EXAMPLES.md for complete implementation)

得:服持運,每 5 分偵異,警發於事,諸動皆誌。

敗:排程程序宜存(生產用 systemd/supervisor)。查 Prometheus 連。驗模載成。設 dead man's switch 警若服停。察記憶用(記長則定期重載模)。

  • 史數載正無缺時戳
  • Isolation Forest 偵測集已知異
  • Prophet 模於圖捕日/週季節
  • 警聯組時聯之異
  • 根因偵識上游患
  • 智警抑重警
  • 危度算出合理分(0.5-0.9)
  • 監服持運 7+ 日無崩
  • 偽陽率 < 10%(對已標數驗)
  • 關鍵事件真陽率 > 80%

  • 訓於含異之數:基線訓期宜淨(無事件)→人查或用有標數
  • 略季節:靜模敗於日/週模→用 Prophet 或加時特
  • 閾過敏:99% 信域可標常峰→始 99.5% 依偽陽調
  • 未處缺:指標隙致模誤→固前處含插
  • 低危致警疲:過濾危度下限→重高信異
  • 略系拓撲:獨立視諸指標失連鎖敗→定依關係
  • 模漂:舊訓模陳→月重訓或系變時
  • 資源爭:每指標偵昂→先關鍵服或採樣

  • monitor-model-drift
  • monitor-data-integrity
  • setup-prometheus-monitoring
  • forecast-operational-metrics

GitHub リポジトリ

pjt222/agent-almanac
パス: i18n/wenyan-ultra/skills/detect-anomalies-aiops
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

関連スキル

llamaguard

その他

LlamaGuardは、暴力やヘイトスピーチなど6つの安全性カテゴリーにおいて、LLMの入力と出力をモデレートするMetaの70-80億パラメータモデルです。94〜95%の精度を提供し、vLLM、Hugging Face、Amazon SageMakerを使用してデプロイ可能です。このスキルを使用して、AIアプリケーションにコンテンツフィルタリングと安全策を簡単に統合できます。

スキルを見る

cost-optimization

その他

このClaudeスキルは、リソースの適正サイジング、タグ付け戦略、支出分析を通じて、開発者がクラウドコストを最適化することを支援します。AWS、Azure、GCPにわたるクラウド支出の削減とコストガバナンスの実施のためのフレームワークを提供します。インフラコストの分析、リソースの適正サイジング、または予算制約への対応が必要な際にご利用ください。

スキルを見る

quantizing-models-bitsandbytes

その他

このスキルは、bitsandbytesを使用してLLMを8ビットまたは4ビット精度に量子化し、精度の低下を最小限に抑えつつ50〜75%のメモリ削減を実現します。限られたGPUメモリでより大規模なモデルを実行したり、推論を高速化するのに理想的で、INT8、NF4、FP4などのフォーマットをサポートしています。HuggingFace Transformersと統合され、QLoRAトレーニングや8ビットオプティマイザーを可能にします。

スキルを見る

dispatching-parallel-agents

その他

このClaudeスキルは、複数のエージェントを配備し、3つ以上の独立した問題を並行して調査・修正します。共有状態や依存関係がなく解決可能な、無関係な障害が発生するシナリオ向けに設計されています。中核となる機能は並列問題解決であり、効率を最大化するために独立した問題領域ごとに1つのエージェントを割り当てます。

スキルを見る