返回技能列表

review-data-analysis

pjt222
更新于 2 days ago
6 次查看
17
2
17
在 GitHub 上查看
其他data

关于

This skill reviews data analyses for quality, correctness, and reproducibility. It performs data quality assessment, assumption checking, model validation, data leakage detection, and reproducibility verification. Use it for peer reviews before publication, validating ML pipelines before production, or auditing reports for regulatory decisions.

快速安装

Claude Code

推荐
主要方式
npx skills add pjt222/agent-almanac -a claude-code
插件命令备选方式
/plugin add https://github.com/pjt222/agent-almanac
Git 克隆备选方式
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/review-data-analysis

在 Claude Code 中复制并粘贴此命令以安装该技能

技能文档


name: review-data-analysis description: > Ueberprueft eine Datenanalyse auf Qualitaet, Korrektheit und Reproduzierbarkeit. Umfasst Datenqualitaetsbewertung, Annahmenprüfung, Modellvalidierung, Data-Leakage- Erkennung und Reproduzierbarkeitsverifikation. Verwenden beim Review einer Kollegen- Analyse vor der Publikation, bei der Validierung einer ML-Pipeline vor dem Produktionseinsatz, beim Audit eines Berichts fuer regulatorische oder geschaeftliche Entscheidungen oder bei einem Zweitanalysten-Review in einer regulierten Umgebung. locale: de source_locale: en source_commit: 6f65f316 translator: claude-opus-4-6 translation_date: 2026-03-16 license: MIT allowed-tools: Read Grep Glob Bash WebFetch metadata: author: Philipp Thoss version: "1.0" domain: review complexity: advanced language: multi tags: data-quality, model-validation, leakage, reproducibility, statistics, review

Datenanalyse reviewen

Eine Datenanalyse-Pipeline auf Korrektheit, Robustheit und Reproduzierbarkeit ueberpruefen.

Wann verwenden

  • Review der Analyse-Notebooks oder Skripte eines Kollegen vor der Publikation
  • Validierung einer Machine-Learning-Pipeline vor dem Produktionseinsatz
  • Audit eines Analyseberichts fuer regulatorische oder geschaeftliche Entscheidungen
  • Einschaetzung, ob eine Analyse ihre formulierten Schlussfolgerungen stuetzt
  • Zweitanalysten-Review in einer regulierten Umgebung

Eingaben

  • Erforderlich: Analysecode (Skripte, Notebooks oder Pipeline-Definitionen)
  • Erforderlich: Analyseausgabe (Ergebnisse, Tabellen, Abbildungen, Modellmetriken)
  • Optional: Rohdaten oder Datenlexikon
  • Optional: Analyseplan oder Protokoll (vorab registriert oder ad-hoc)
  • Optional: Zielgruppe und Entscheidungskontext

Vorgehensweise

Schritt 1: Datenqualitaet bewerten

Die Eingabedaten vor der Bewertung der Analyse ueberpruefen:

## Datenqualitaetsbewertung

### Vollstaendigkeit
- [ ] Fehlende Daten quantifiziert (% pro Spalte und pro Zeile)
- [ ] Mechanismus fehlender Daten beruecksichtigt (MCAR, MAR, MNAR)
- [ ] Imputationsmethode angemessen (falls verwendet) oder Vollfall-Analyse begruendet

### Konsistenz
- [ ] Datentypen entsprechen den Erwartungen (Datumsangaben sind Datum, Zahlen sind Zahlen)
- [ ] Werteranges sind plausibel (keine negativen Altersangaben, Zukunftsdaten in historischen Daten)
- [ ] Kategorische Variablen haben erwartete Auspraegungen (keine Tippfehler, einheitliche Kodierung)
- [ ] Einheiten sind ueber alle Datensaetze konsistent

### Eindeutigkeit
- [ ] Duplikate identifiziert und behandelt
- [ ] Primaerschluessel sind wo erwartet eindeutig
- [ ] Join-Operationen liefern erwartete Zeilenanzahl (kein Fan-out oder Verlust)

### Aktualitaet
- [ ] Datenvintage fuer die Analysefrage angemessen
- [ ] Zeitliche Abdeckung entspricht dem Studienzeitraum
- [ ] Kein Look-ahead-Bias in Zeitreihendaten

### Herkunft
- [ ] Datenquelle dokumentiert
- [ ] Extraktionsdatum/-version festgehalten
- [ ] Alle Transformationen zwischen Quelle und Analyseeingabe dokumentiert

Erwartet: Datenqualitaetsprobleme mit ihrem potenziellen Einfluss auf die Ergebnisse dokumentiert. Bei Fehler: Wenn die Daten fuer den Review nicht zugaenglich sind, die Qualitaet aus dem Code beurteilen (welche Pruefungen und Transformationen werden angewendet).

Schritt 2: Annahmen pruefen

Fuer jede verwendete statistische Methode oder jedes Modell:

MethodeWesentliche AnnahmenWie pruefen
Lineare RegressionLinearitaet, Unabhaengigkeit, Normalverteilung der Residuen, HomoskedastizitaetResidualplots, Q-Q-Plot, Durbin-Watson, Breusch-Pagan
Logistische RegressionUnabhaengigkeit, keine Multikollinearitaet, lineares LogitVIF, Box-Tidwell, Residualdiagnostik
t-TestUnabhaengigkeit, Normalverteilung (oder grosses n), gleiche VarianzShapiro-Wilk, Levene-Test, visuelle Inspektion
ANOVAUnabhaengigkeit, Normalverteilung, VarianzgleichheitShapiro-Wilk pro Gruppe, Levene-Test
Chi-QuadratUnabhaengigkeit, erwartete Haeufigkeit ≥ 5Tabelle der erwarteten Haeufigkeiten
Random ForestAusreichende Trainingsdaten, Feature-RelevanzOOB-Fehler, Feature-Importance, Lernkurven
Neuronales NetzAusreichende Daten, geeignete Architektur, kein Data LeakageValidierungskurven, Ueberpruefung auf Overfitting
## Ergebnisse der Annahmenprüfung
| Analyseschritt | Methode | Annahme | Geprueft? | Ergebnis |
|---------------|--------|------------|----------|--------|
| Primaermodell | Lineare Regression | Normalverteilung der Residuen | Ja | Q-Q-Plot zeigt leichte Abweichung — akzeptabel fuer n>100 |
| Primaermodell | Lineare Regression | Homoskedastizitaet | Nein | Nicht geprueft — Breusch-Pagan-Test empfohlen |

Erwartet: Jede statistische Methode hat ihre Annahmen explizit geprueft oder anerkannt. Bei Fehler: Wenn Annahmen verletzt sind, pruefen, ob die Autoren dies berucksichtigt haben (robuste Methoden, Transformationen, Sensitivitaetsanalyse).

Schritt 3: Data Leakage erkennen

Data Leakage tritt auf, wenn Informationen ausserhalb des Trainingssets das Modell beeinflussen und zu uebertrieben optimistischer Leistung fuehren:

Haeufige Leakage-Muster:

  • Target Leakage: Feature, das die Zielvariable direkt kodiert (z. B. "treatment_outcome" zur Vorhersage von "treatment_success")
  • Temporales Leakage: Zukuenftige Informationen zur Vorhersage der Vergangenheit (Features aus Daten, die zum Prognosezeitpunkt nicht verfuegbar waeren)
  • Train-Test-Kontamination: Vorverarbeitung (Skalierung, Imputation, Feature-Selektion) auf dem gesamten Datensatz vor dem Aufteilen
  • Gruppen-Leakage: Verwandte Beobachtungen (gleicher Patient, gleiches Geraet) auf Train- und Testsets aufgeteilt
  • Feature-Engineering-Leakage: Aggregate ueber den gesamten Datensatz statt innerhalb des Trainingsfolds berechnet
## Leakage-Bewertung
| Pruefung | Status | Nachweis |
|-------|--------|----------|
| Target Leakage | Unbedenklich | Keine aus dem Ziel abgeleiteten Features |
| Temporales Leakage | BEDENKEN | Feature X verwendet 30-Tage-Vorwaertsanalyse |
| Train-Test-Kontamination | Unbedenklich | StandardScaler nur auf Train angepasst |
| Gruppen-Leakage | BEDENKEN | Patienten-IDs nicht fuer geschichtete Aufteilung verwendet |

Erwartet: Alle haeufigen Leakage-Muster mit klar/Bedenken-Status geprueft. Bei Fehler: Wenn Leakage gefunden wird, dessen Auswirkung abschaetzen, indem ohne das durchgesickerte Feature neu ausgewertet wird (wenn moeglich), oder fuer den Analysten zur Untersuchung markieren.

Schritt 4: Modellleistung validieren

Fuer Prognosemodelle:

  • Angemessene Metriken fuer das Problem (nicht nur Genauigkeit — Praezision, Recall, F1, AUC, RMSE, MAE beruecksichtigen)
  • Kreuzvalidierungs- oder Holdout-Strategie beschrieben und angemessen
  • Leistung auf Trainings- vs. Test-/Validierungsset verglichen (Overfitting-Pruefung)
  • Baseline-Vergleich angegeben (naives Modell, Zufallszufall, frueherer Ansatz)
  • Konfidenzintervalle oder Standardfehler fuer Leistungsmetriken
  • Leistung auf relevanten Untergruppen bewertet (Fairness, Grenzfaelle)

Fuer inferenzielle/erklaerende Modelle:

  • Modellanpassungsstatistiken berichtet (R², AIC, BIC, Devianz)
  • Koeffizienten korrekt interpretiert (Richtung, Groesse, Signifikanz)
  • Multikollinearitaet bewertet (VIF < 5–10)
  • Einflussreiche Beobachtungen identifiziert (Cook's Distanz, Leverage)
  • Modellvergleich wenn mehrere Spezifikationen getestet

Erwartet: Modellvalidierung angemessen fuer den Anwendungsfall (Prognose vs. Inferenz). Bei Fehler: Wenn die Testset-Leistung verdaechtig nah an der Trainingsleistung ist, potenzielles Leakage markieren.

Schritt 5: Reproduzierbarkeit bewerten

## Reproduzierbarkeits-Checkliste
| Punkt | Status | Anmerkungen |
|------|--------|-------|
| Code laeuft fehlerfrei | [Ja/Nein] | Getestet auf [Umgebungsbeschreibung] |
| Zufallsseeds gesetzt | [Ja/Nein] | Zeile [N] in [Datei] |
| Abhaengigkeiten dokumentiert | [Ja/Nein] | requirements.txt / renv.lock vorhanden |
| Datenladen reproduzierbar | [Ja/Nein] | Pfad ist [relativ/absolut/URL] |
| Ergebnisse stimmen mit berichteten Werten ueberein | [Ja/Nein] | Verifiziert: Tabelle 1 ✓, Abbildung 2 ✗ (geringfuegige Abweichung) |
| Umgebung dokumentiert | [Ja/Nein] | Python 3.11 / R 4.5.0 angegeben |

Erwartet: Reproduzierbarkeit durch erneute Ausfuehrung der Analyse verifiziert (oder aus dem Code bewertet, wenn Daten nicht verfuegbar sind). Bei Fehler: Wenn sich Ergebnisse nicht exakt reproduzieren lassen, bestimmen, ob Unterschiede innerhalb der Gleitkomma-Toleranz liegen oder auf ein Problem hinweisen.

Schritt 6: Das Review verfassen

## Datenanalyse-Review

### Gesamtbewertung
[1-2 Saetze: Ist die Analyse solide? Stuetzt sie die Schlussfolgerungen?]

### Datenqualitaet
[Zusammenfassung der Datenqualitaetsbefunde, Auswirkungen auf die Ergebnisse]

### Methodische Bedenken
1. **[Titel]**: [Beschreibung, Stelle im Code/Bericht, Vorschlag]
2. ...

### Staerken
1. [Was gut gemacht wurde]
2. ...

### Reproduzierbarkeit
[Stufenbewertung: Gold/Silber/Bronze/Undurchsichtig mit Begruendung]

### Empfehlungen
- [ ] [Spezifische Handlungsaufgaben fuer den Analysten]

Erwartet: Review liefert umsetzbare Rueckmeldungen mit spezifischen Verweisen auf Codestellen. Bei Fehler: Bei Zeitdruck Datenqualitaet und Leakage-Prüfungen vor Stilproblemen priorisieren.

Validierung

  • Datenqualitaet in Bezug auf Vollstaendigkeit, Konsistenz, Eindeutigkeit, Aktualitaet, Herkunft bewertet
  • Statistische Annahmen fuer jede verwendete Methode geprueft
  • Data Leakage systematisch bewertet
  • Modellleistung mit angemessenen Metriken und Baselines validiert
  • Reproduzierbarkeit bewertet (Code laeuft, Ergebnisse stimmen ueberein)
  • Rueckmeldungen sind spezifisch und verweisen auf Codezeilen oder Berichtsabschnitte
  • Ton ist konstruktiv und kollaborativ

Haeufige Stolperfallen

  • Nur den Code reviewen: Analyseplan und Schlussfolgerungen sind ebenso wichtig wie die Implementierung.
  • Datenqualitaet ignorieren: Anspruchsvolle Modelle auf schlechten Daten liefern selbstsichere falsche Antworten.
  • Korrektheit aus Komplexitaet annehmen: Ein Random Forest mit 95% Genauigkeit koennte Data Leakage haben; ein einfacher t-Test koennte der richtige Ansatz sein.
  • Den Code nicht ausfuehren: Wenn irgend moeglich, den Code ausfuehren, um die Reproduzierbarkeit zu verifizieren. Das Lesen von Code reicht nicht.
  • Den Wald vor lauter Baeumen nicht sehen: Nicht in Codestilproblemen verlieren und dabei einen grundlegenden Analysefehler uebersehen.

Verwandte Skills

  • review-research — breitere Forschungsmethodik und Manuskript-Review
  • validate-statistical-output — Doppelprogrammierungs-Verifikationsmethodik
  • generate-statistical-tables — publikationsreife statistische Tabellen
  • review-software-architecture — Codestruktur- und Design-Review

GitHub 仓库

pjt222/agent-almanac
路径: i18n/de/skills/review-data-analysis
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

相关推荐技能

llamaguard

其他

LlamaGuard是Meta推出的7-8B参数内容审核模型,专门用于过滤LLM的输入和输出内容。它能检测六大安全风险类别(暴力/仇恨、性内容、武器、违禁品、自残、犯罪计划),准确率达94-95%。开发者可通过HuggingFace、vLLM或Sagemaker快速部署,并能与NeMo Guardrails集成实现自动化安全防护。

查看技能

cost-optimization

其他

这个Claude Skill帮助开发者优化云成本,通过资源调整、标记策略和预留实例来降低AWS、Azure和GCP的开支。它适用于减少云支出、分析基础设施成本或实施成本治理策略的场景。关键功能包括提供成本可视化、资源规模调整指导和定价模型优化建议。

查看技能

quantizing-models-bitsandbytes

其他

这个Skill使用bitsandbytes库量化大语言模型,能在GPU内存有限时通过8位或4位量化减少50-75%内存占用,同时保持精度损失最小。它支持INT8、NF4、FP4等多种量化格式,可与HuggingFace Transformers无缝集成,适用于需要部署更大模型或加速推理的场景。还提供QLoRA训练和8位优化器支持,让开发者能轻松实现高效模型压缩。

查看技能

dispatching-parallel-agents

其他

该Skill用于并行处理3个以上无依赖关系的独立故障,可为每个问题域分派专属Claude代理同时执行调查修复。它通过并发处理多个独立问题显著提升故障排查效率,特别适用于测试文件、子系统等无共享状态的场景。

查看技能