MCP HubMCP Hub
스킬 목록으로 돌아가기

review-data-analysis

pjt222
업데이트됨 2 days ago
7 조회
17
2
17
GitHub에서 보기
기타data

정보

이 스킬은 데이터 분석의 품질, 정확성, 재현성을 검토합니다. 데이터 품질 평가, 가정 검증, 모델 검증, 데이터 누출 탐지, 재현성 확인을 수행합니다. 출판 전 동료 검토, 프로덕션 전 ML 파이프라인 검증, 규제 결정을 위한 보고서 감사에 활용하세요.

빠른 설치

Claude Code

추천
기본
npx skills add pjt222/agent-almanac -a claude-code
플러그인 명령대체
/plugin add https://github.com/pjt222/agent-almanac
Git 클론대체
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/review-data-analysis

Claude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요

문서


name: review-data-analysis description: > Ueberprueft eine Datenanalyse auf Qualitaet, Korrektheit und Reproduzierbarkeit. Umfasst Datenqualitaetsbewertung, Annahmenprüfung, Modellvalidierung, Data-Leakage- Erkennung und Reproduzierbarkeitsverifikation. Verwenden beim Review einer Kollegen- Analyse vor der Publikation, bei der Validierung einer ML-Pipeline vor dem Produktionseinsatz, beim Audit eines Berichts fuer regulatorische oder geschaeftliche Entscheidungen oder bei einem Zweitanalysten-Review in einer regulierten Umgebung. locale: de source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Grep Glob Bash WebFetch metadata: author: Philipp Thoss version: "1.0" domain: review complexity: advanced language: multi tags: data-quality, model-validation, leakage, reproducibility, statistics, review

Datenanalyse reviewen

Eine Datenanalyse-Pipeline auf Korrektheit, Robustheit und Reproduzierbarkeit ueberpruefen.

Wann verwenden

  • Review der Analyse-Notebooks oder Skripte eines Kollegen vor der Publikation
  • Validierung einer Machine-Learning-Pipeline vor dem Produktionseinsatz
  • Audit eines Analyseberichts fuer regulatorische oder geschaeftliche Entscheidungen
  • Einschaetzung, ob eine Analyse ihre formulierten Schlussfolgerungen stuetzt
  • Zweitanalysten-Review in einer regulierten Umgebung

Eingaben

  • Erforderlich: Analysecode (Skripte, Notebooks oder Pipeline-Definitionen)
  • Erforderlich: Analyseausgabe (Ergebnisse, Tabellen, Abbildungen, Modellmetriken)
  • Optional: Rohdaten oder Datenlexikon
  • Optional: Analyseplan oder Protokoll (vorab registriert oder ad-hoc)
  • Optional: Zielgruppe und Entscheidungskontext

Vorgehensweise

Schritt 1: Datenqualitaet bewerten

Die Eingabedaten vor der Bewertung der Analyse ueberpruefen:

## Datenqualitaetsbewertung

### Vollstaendigkeit
- [ ] Fehlende Daten quantifiziert (% pro Spalte und pro Zeile)
- [ ] Mechanismus fehlender Daten beruecksichtigt (MCAR, MAR, MNAR)
- [ ] Imputationsmethode angemessen (falls verwendet) oder Vollfall-Analyse begruendet

### Konsistenz
- [ ] Datentypen entsprechen den Erwartungen (Datumsangaben sind Datum, Zahlen sind Zahlen)
- [ ] Werteranges sind plausibel (keine negativen Altersangaben, Zukunftsdaten in historischen Daten)
- [ ] Kategorische Variablen haben erwartete Auspraegungen (keine Tippfehler, einheitliche Kodierung)
- [ ] Einheiten sind ueber alle Datensaetze konsistent

### Eindeutigkeit
- [ ] Duplikate identifiziert und behandelt
- [ ] Primaerschluessel sind wo erwartet eindeutig
- [ ] Join-Operationen liefern erwartete Zeilenanzahl (kein Fan-out oder Verlust)

### Aktualitaet
- [ ] Datenvintage fuer die Analysefrage angemessen
- [ ] Zeitliche Abdeckung entspricht dem Studienzeitraum
- [ ] Kein Look-ahead-Bias in Zeitreihendaten

### Herkunft
- [ ] Datenquelle dokumentiert
- [ ] Extraktionsdatum/-version festgehalten
- [ ] Alle Transformationen zwischen Quelle und Analyseeingabe dokumentiert

Erwartet: Datenqualitaetsprobleme mit ihrem potenziellen Einfluss auf die Ergebnisse dokumentiert. Bei Fehler: Wenn die Daten fuer den Review nicht zugaenglich sind, die Qualitaet aus dem Code beurteilen (welche Pruefungen und Transformationen werden angewendet).

Schritt 2: Annahmen pruefen

Fuer jede verwendete statistische Methode oder jedes Modell:

MethodeWesentliche AnnahmenWie pruefen
Lineare RegressionLinearitaet, Unabhaengigkeit, Normalverteilung der Residuen, HomoskedastizitaetResidualplots, Q-Q-Plot, Durbin-Watson, Breusch-Pagan
Logistische RegressionUnabhaengigkeit, keine Multikollinearitaet, lineares LogitVIF, Box-Tidwell, Residualdiagnostik
t-TestUnabhaengigkeit, Normalverteilung (oder grosses n), gleiche VarianzShapiro-Wilk, Levene-Test, visuelle Inspektion
ANOVAUnabhaengigkeit, Normalverteilung, VarianzgleichheitShapiro-Wilk pro Gruppe, Levene-Test
Chi-QuadratUnabhaengigkeit, erwartete Haeufigkeit ≥ 5Tabelle der erwarteten Haeufigkeiten
Random ForestAusreichende Trainingsdaten, Feature-RelevanzOOB-Fehler, Feature-Importance, Lernkurven
Neuronales NetzAusreichende Daten, geeignete Architektur, kein Data LeakageValidierungskurven, Ueberpruefung auf Overfitting
## Ergebnisse der Annahmenprüfung
| Analyseschritt | Methode | Annahme | Geprueft? | Ergebnis |
|---------------|--------|------------|----------|--------|
| Primaermodell | Lineare Regression | Normalverteilung der Residuen | Ja | Q-Q-Plot zeigt leichte Abweichung — akzeptabel fuer n>100 |
| Primaermodell | Lineare Regression | Homoskedastizitaet | Nein | Nicht geprueft — Breusch-Pagan-Test empfohlen |

Erwartet: Jede statistische Methode hat ihre Annahmen explizit geprueft oder anerkannt. Bei Fehler: Wenn Annahmen verletzt sind, pruefen, ob die Autoren dies berucksichtigt haben (robuste Methoden, Transformationen, Sensitivitaetsanalyse).

Schritt 3: Data Leakage erkennen

Data Leakage tritt auf, wenn Informationen ausserhalb des Trainingssets das Modell beeinflussen und zu uebertrieben optimistischer Leistung fuehren:

Haeufige Leakage-Muster:

  • Target Leakage: Feature, das die Zielvariable direkt kodiert (z. B. "treatment_outcome" zur Vorhersage von "treatment_success")
  • Temporales Leakage: Zukuenftige Informationen zur Vorhersage der Vergangenheit (Features aus Daten, die zum Prognosezeitpunkt nicht verfuegbar waeren)
  • Train-Test-Kontamination: Vorverarbeitung (Skalierung, Imputation, Feature-Selektion) auf dem gesamten Datensatz vor dem Aufteilen
  • Gruppen-Leakage: Verwandte Beobachtungen (gleicher Patient, gleiches Geraet) auf Train- und Testsets aufgeteilt
  • Feature-Engineering-Leakage: Aggregate ueber den gesamten Datensatz statt innerhalb des Trainingsfolds berechnet
## Leakage-Bewertung
| Pruefung | Status | Nachweis |
|-------|--------|----------|
| Target Leakage | Unbedenklich | Keine aus dem Ziel abgeleiteten Features |
| Temporales Leakage | BEDENKEN | Feature X verwendet 30-Tage-Vorwaertsanalyse |
| Train-Test-Kontamination | Unbedenklich | StandardScaler nur auf Train angepasst |
| Gruppen-Leakage | BEDENKEN | Patienten-IDs nicht fuer geschichtete Aufteilung verwendet |

Erwartet: Alle haeufigen Leakage-Muster mit klar/Bedenken-Status geprueft. Bei Fehler: Wenn Leakage gefunden wird, dessen Auswirkung abschaetzen, indem ohne das durchgesickerte Feature neu ausgewertet wird (wenn moeglich), oder fuer den Analysten zur Untersuchung markieren.

Schritt 4: Modellleistung validieren

Fuer Prognosemodelle:

  • Angemessene Metriken fuer das Problem (nicht nur Genauigkeit — Praezision, Recall, F1, AUC, RMSE, MAE beruecksichtigen)
  • Kreuzvalidierungs- oder Holdout-Strategie beschrieben und angemessen
  • Leistung auf Trainings- vs. Test-/Validierungsset verglichen (Overfitting-Pruefung)
  • Baseline-Vergleich angegeben (naives Modell, Zufallszufall, frueherer Ansatz)
  • Konfidenzintervalle oder Standardfehler fuer Leistungsmetriken
  • Leistung auf relevanten Untergruppen bewertet (Fairness, Grenzfaelle)

Fuer inferenzielle/erklaerende Modelle:

  • Modellanpassungsstatistiken berichtet (R², AIC, BIC, Devianz)
  • Koeffizienten korrekt interpretiert (Richtung, Groesse, Signifikanz)
  • Multikollinearitaet bewertet (VIF < 5–10)
  • Einflussreiche Beobachtungen identifiziert (Cook's Distanz, Leverage)
  • Modellvergleich wenn mehrere Spezifikationen getestet

Erwartet: Modellvalidierung angemessen fuer den Anwendungsfall (Prognose vs. Inferenz). Bei Fehler: Wenn die Testset-Leistung verdaechtig nah an der Trainingsleistung ist, potenzielles Leakage markieren.

Schritt 5: Reproduzierbarkeit bewerten

## Reproduzierbarkeits-Checkliste
| Punkt | Status | Anmerkungen |
|------|--------|-------|
| Code laeuft fehlerfrei | [Ja/Nein] | Getestet auf [Umgebungsbeschreibung] |
| Zufallsseeds gesetzt | [Ja/Nein] | Zeile [N] in [Datei] |
| Abhaengigkeiten dokumentiert | [Ja/Nein] | requirements.txt / renv.lock vorhanden |
| Datenladen reproduzierbar | [Ja/Nein] | Pfad ist [relativ/absolut/URL] |
| Ergebnisse stimmen mit berichteten Werten ueberein | [Ja/Nein] | Verifiziert: Tabelle 1 ✓, Abbildung 2 ✗ (geringfuegige Abweichung) |
| Umgebung dokumentiert | [Ja/Nein] | Python 3.11 / R 4.5.0 angegeben |

Erwartet: Reproduzierbarkeit durch erneute Ausfuehrung der Analyse verifiziert (oder aus dem Code bewertet, wenn Daten nicht verfuegbar sind). Bei Fehler: Wenn sich Ergebnisse nicht exakt reproduzieren lassen, bestimmen, ob Unterschiede innerhalb der Gleitkomma-Toleranz liegen oder auf ein Problem hinweisen.

Schritt 6: Das Review verfassen

## Datenanalyse-Review

### Gesamtbewertung
[1-2 Saetze: Ist die Analyse solide? Stuetzt sie die Schlussfolgerungen?]

### Datenqualitaet
[Zusammenfassung der Datenqualitaetsbefunde, Auswirkungen auf die Ergebnisse]

### Methodische Bedenken
1. **[Titel]**: [Beschreibung, Stelle im Code/Bericht, Vorschlag]
2. ...

### Staerken
1. [Was gut gemacht wurde]
2. ...

### Reproduzierbarkeit
[Stufenbewertung: Gold/Silber/Bronze/Undurchsichtig mit Begruendung]

### Empfehlungen
- [ ] [Spezifische Handlungsaufgaben fuer den Analysten]

Erwartet: Review liefert umsetzbare Rueckmeldungen mit spezifischen Verweisen auf Codestellen. Bei Fehler: Bei Zeitdruck Datenqualitaet und Leakage-Prüfungen vor Stilproblemen priorisieren.

Validierung

  • Datenqualitaet in Bezug auf Vollstaendigkeit, Konsistenz, Eindeutigkeit, Aktualitaet, Herkunft bewertet
  • Statistische Annahmen fuer jede verwendete Methode geprueft
  • Data Leakage systematisch bewertet
  • Modellleistung mit angemessenen Metriken und Baselines validiert
  • Reproduzierbarkeit bewertet (Code laeuft, Ergebnisse stimmen ueberein)
  • Rueckmeldungen sind spezifisch und verweisen auf Codezeilen oder Berichtsabschnitte
  • Ton ist konstruktiv und kollaborativ

Haeufige Stolperfallen

  • Nur den Code reviewen: Analyseplan und Schlussfolgerungen sind ebenso wichtig wie die Implementierung.
  • Datenqualitaet ignorieren: Anspruchsvolle Modelle auf schlechten Daten liefern selbstsichere falsche Antworten.
  • Korrektheit aus Komplexitaet annehmen: Ein Random Forest mit 95% Genauigkeit koennte Data Leakage haben; ein einfacher t-Test koennte der richtige Ansatz sein.
  • Den Code nicht ausfuehren: Wenn irgend moeglich, den Code ausfuehren, um die Reproduzierbarkeit zu verifizieren. Das Lesen von Code reicht nicht.
  • Den Wald vor lauter Baeumen nicht sehen: Nicht in Codestilproblemen verlieren und dabei einen grundlegenden Analysefehler uebersehen.

Verwandte Skills

  • review-research — breitere Forschungsmethodik und Manuskript-Review
  • validate-statistical-output — Doppelprogrammierungs-Verifikationsmethodik
  • generate-statistical-tables — publikationsreife statistische Tabellen
  • review-software-architecture — Codestruktur- und Design-Review

GitHub 저장소

pjt222/agent-almanac
경로: i18n/de/skills/review-data-analysis
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

연관 스킬

llamaguard

기타

LlamaGuard는 폭력 및 혐오 발언 등 6가지 안전 범주에서 LLM 입력과 출력을 조정하기 위한 Meta의 70-80억 파라미터 모델입니다. 94-95% 정확도를 제공하며 vLLM, Hugging Face 또는 Amazon SageMaker를 사용해 배포할 수 있습니다. 이 기술을 사용하여 AI 애플리케이션에 콘텐츠 필터링 및 안전 가드레일을 손쉽게 통합하세요.

스킬 보기

cost-optimization

기타

이 Claude Skill은 리소스 적정화, 태깅 전략, 지출 분석을 통해 개발자들이 클라우드 비용을 최적화할 수 있도록 지원합니다. AWS, Azure, GCP에서 클라우드 비용을 절감하고 비용 거버넌스를 구현하기 위한 프레임워크를 제공합니다. 인프라 비용을 분석하거나, 리소스를 적정화하거나, 예산 제약을 충족해야 할 때 사용하세요.

스킬 보기

quantizing-models-bitsandbytes

기타

이 스킬은 bitsandbytes를 사용하여 LLM을 8비트 또는 4비트 정밀도로 양자화하며, 최소한의 정확도 손실로 50-75%의 메모리 감소를 달성합니다. 제한된 GPU 메모리에서 더 큰 모델을 실행하거나 추론을 가속화하는 데 이상적이며, INT8, NF4, FP4와 같은 형식을 지원합니다. 이 스킬은 HuggingFace Transformers와 통합되어 QLoRA 학습 및 8비트 옵티마이저를 가능하게 합니다.

스킬 보기

dispatching-parallel-agents

기타

이 Claude Skill은 3개 이상의 독립적인 문제를 동시에 조사하고 해결하기 위해 다중 에이전트를 배치합니다. 공유 상태나 의존성 없이 해결 가능한 무관련 장애 시나리오에 맞게 설계되었습니다. 핵심 기능은 병렬 문제 해결로, 각 독립 문제 영역마다 하나의 에이전트를 할당하여 효율성을 극대화합니다.

스킬 보기