スキル一覧に戻る

review-data-analysis

pjt222
更新日 Yesterday
3 閲覧
17
2
17
GitHubで表示
テストdata

について

このスキルは、データ分析の品質、正確性、再現性をレビューし、データ品質、モデル検証、リーク検出をカバーします。出版前のピアレビュー、本番環境向けMLパイプラインの検証、規制上の決定のための報告書監査にご利用ください。規制環境における高度な多言語レビューシナリオ向けに設計されています。

クイックインストール

Claude Code

推奨
メイン
npx skills add pjt222/agent-almanac -a claude-code
プラグインコマンド代替
/plugin add https://github.com/pjt222/agent-almanac
Git クローン代替
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/review-data-analysis

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

審數析

評數析線之正、韌、可復。

用時

  • 審同仁析示前乃用
  • 驗 ML 線產部署前乃用
  • 審析報為規或業決乃用
  • 估析支其述論乎乃用
  • 於規境行二析者審乃用

  • 必要:析碼(文、本、線定)
  • 必要:析出(果、表、圖、模指)
  • 可選:原數或數典
  • 可選:析計或程(先註或臨)
  • 可選:目眾與決境

第一步:察數質

評析前先審入數:

## Data Quality Assessment

### Completeness
- [ ] Missing data quantified (% by column and by row)
- [ ] Missing data mechanism considered (MCAR, MAR, MNAR)
- [ ] Imputation method appropriate (if used) or complete-case analysis justified

### Consistency
- [ ] Data types match expectations (dates are dates, numbers are numbers)
- [ ] Value ranges are plausible (no negative ages, future dates in historical data)
- [ ] Categorical variables have expected levels (no misspellings, consistent coding)
- [ ] Units are consistent across records

### Uniqueness
- [ ] Duplicate records identified and handled
- [ ] Primary keys are unique where expected
- [ ] Join operations produce expected row counts (no fan-out or drop)

### Timeliness
- [ ] Data vintage appropriate for the analysis question
- [ ] Temporal coverage matches the study period
- [ ] No look-ahead bias in time-series data

### Provenance
- [ ] Data source documented
- [ ] Extraction date/version recorded
- [ ] Any transformations between source and analysis input documented

得: 數質患已書附其於果之影 敗則: 若數不可審,自碼察其質(何察與化已施)

第二步:察其假

各統法或所用之模:

要假如何察
線回歸線、獨、殘之常、同方差殘圖、Q-Q 圖、Durbin-Watson、Breusch-Pagan
邏回歸獨、無多共線、線 logitVIF、Box-Tidwell、殘診
t 試獨、常(或大 n)、等方差Shapiro-Wilk、Levene 試、視察
ANOVA獨、常、方差同各組 Shapiro-Wilk、Levene 試
卡方獨、期頻 ≥ 5期頻表
隨森訓數足、特相關OOB 誤、特要、學曲
神網數足、構宜、無數漏驗曲、過擬察
## Assumption Check Results
| Analysis Step | Method | Assumption | Checked? | Result |
|---------------|--------|------------|----------|--------|
| Primary model | Linear regression | Normality of residuals | Yes | Q-Q plot shows mild deviation — acceptable for n>100 |
| Primary model | Linear regression | Homoscedasticity | No | Not checked — recommend adding Breusch-Pagan test |

得: 各統法之諸假明察或承 敗則: 若假違,察著者是否處之(韌法、化、敏析)

第三步:察數漏

數漏發於訓集外之信影模時,致過樂之性:

常漏形:

  • 目漏:直編目變之特(如「treat_outcome」用以預「treat_success」)
  • 時漏:用未來信預過去(自預測時不可得之數算之特)
  • 訓試污:分前以全數合之預處(縮、補、特擇)
  • 群漏:相關察(同患、同器)分於訓試集
  • 特工漏:聚算於全數而非於訓折內
## Leakage Assessment
| Check | Status | Evidence |
|-------|--------|----------|
| Target leakage | Clear | No features derived from target |
| Temporal leakage | CONCERN | Feature X uses 30-day forward average |
| Train-test contamination | Clear | StandardScaler fit on train only |
| Group leakage | CONCERN | Patient IDs not used for stratified split |

得: 諸常漏形已察附 clear/concern 之態 敗則: 若得漏,估其影由再行而無漏特(若可),或標待析者察

第四步:驗模性

為預模:

  • 為患宜之指(非獨準——慮精、召、F1、AUC、RMSE、MAE)
  • 交驗或留之策已述且宜
  • 訓對試/驗集之性已較(過擬之察)
  • 基線較已供(樸模、隨機、前法)
  • 性指之信區或標誤
  • 性於相關子群評(公、邊例)

為推/釋模:

  • 模合統已報(R²、AIC、BIC、偏差)
  • 系釋正(向、量、義)
  • 多共線已察(VIF < 5–10)
  • 影察已識(Cook 距、leverage)
  • 若試多規格,模較已行

得: 模驗合用境(預對推) 敗則: 若試集之性疑近訓性,標可漏

第五步:察可復

## Reproducibility Checklist
| Item | Status | Notes |
|------|--------|-------|
| Code runs without errors | [Yes/No] | Tested on [environment description] |
| Random seeds set | [Yes/No] | Line [N] in [file] |
| Dependencies documented | [Yes/No] | requirements.txt / renv.lock present |
| Data loading reproducible | [Yes/No] | Path is [relative/absolute/URL] |
| Results match reported values | [Yes/No] | Verified: Table 1 ✓, Figure 2 ✗ (minor discrepancy) |
| Environment documented | [Yes/No] | Python 3.11 / R 4.5.0 specified |

得: 可復由再行析(或自碼察若數不可得)已驗 敗則: 若果不精復,定差於浮點容內或示患

第六步:書其審

## Data Analysis Review

### Overall Assessment
[1-2 sentences: Is the analysis sound? Does it support the conclusions?]

### Data Quality
[Summary of data quality findings, impact on results]

### Methodological Concerns
1. **[Title]**: [Description, location in code/report, suggestion]
2. ...

### Strengths
1. [What was done well]
2. ...

### Reproducibility
[Tier assessment: Gold/Silver/Bronze/Opaque with justification]

### Recommendations
- [ ] [Specific action items for the analyst]

得: 審供可行之反附碼所/報段之具引 敗則: 若時限,先處數質與漏察而後格患

  • 數質已察過全、恆、唯、時、源
  • 各所用法之統假已察
  • 數漏已系察
  • 模性以宜指與基線驗
  • 可復已評(碼行、果合)
  • 反具體,引碼行或報段
  • 調建設且協

  • 獨審其碼:析計與結論等於施而要
  • 忽數質:劣數上之繁模生信誤之答
  • 以繁假正:95% 準之隨森或有數漏;簡 t 試或為正徑
  • 不行其碼:若可,行碼以驗可復。讀碼不足
  • 見樹失林:勿陷碼格而失基析誤

  • review-research — 廣研法與稿審
  • validate-statistical-output — 雙程驗法
  • generate-statistical-tables — 公示備之統表
  • review-software-architecture — 碼構與設審

GitHub リポジトリ

pjt222/agent-almanac
パス: i18n/wenyan/skills/review-data-analysis
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

関連スキル

evaluating-llms-harness

テスト

このClaudeスキルは、lm-evaluation-harnessを実行し、MMLUやGSM8Kなど60以上の標準化学術タスクでLLMをベンチマークします。開発者がモデルの品質を比較し、トレーニングの進捗を追跡し、学術的な結果を報告するために設計されています。このツールはHuggingFaceやvLLMモデルを含む様々なバックエンドをサポートしています。

スキルを見る

cloudflare-cron-triggers

テスト

このスキルは、cron式を使用してWorkersをスケジュールするためのCloudflare Cron Triggersの実装に関する包括的な知識を提供します。定期的なタスクの設定、メンテナンスジョブ、自動化されたワークフローの構築を網羅し、無効なcron式やタイムゾーン問題といった一般的な課題への対処法も含みます。開発者はこれを使用して、スケジュールされたハンドラーの設定、cronトリガーのテスト、WorkflowsやGreen Computeとの連携を構成できます。

スキルを見る

webapp-testing

テスト

このClaude Skillは、Playwrightベースのツールキットを提供し、Pythonスクリプトを通じてローカルWebアプリケーションのテストを可能にします。フロントエンドの検証、UIデバッグ、スクリーンショット撮影、ログ表示を実現し、サーバーライフサイクルを管理します。ブラウザ自動化タスクにご利用いただけますが、コンテキストの汚染を避けるため、スクリプトのソースコードを読むのではなく直接実行してください。

スキルを見る

finishing-a-development-branch

テスト

このスキルは、開発者がテストの合格を確認し、構造化された統合オプションを提示することで、完成した作業を仕上げることを支援します。実装が完了した後のマージ、PR作成、ブランチの整理といったワークフローを案内します。コードが準備できてテスト済みの際に使用し、開発プロセスを体系的に完了させましょう。

スキルを見る