スキル一覧に戻る

hpc-runtime-doctor

HeshamFS
更新日 Yesterday
2 閲覧
40
3
40
GitHubで表示
デザインaiapi

について

このClaude Skillは、高性能計算(HPC)材料シミュレーションにおけるランタイムおよびスケジューラの問題を診断します。クラスター上でジョブが失敗したり性能が低下したりする際の、MPI/OpenMP配置、GPU使用状況、環境モジュール、リソース不一致などの問題を分析します。移植性や性能に関する問題に対して、診断結果、環境チェックリスト、安全な再実行計画を取得するためにご利用ください。

クイックインストール

Claude Code

推奨
メイン
npx skills add HeshamFS/materials-simulation-skills -a claude-code
プラグインコマンド代替
/plugin add https://github.com/HeshamFS/materials-simulation-skills
Git クローン代替
git clone https://github.com/HeshamFS/materials-simulation-skills.git ~/.claude/skills/hpc-runtime-doctor

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

HPC Runtime Doctor

Goal

Turn cluster symptoms into a resource-layout diagnosis, environment checklist, and safe retry plan.

Requirements

  • Python 3.10+
  • No external dependencies
  • Works on Linux, macOS, and Windows

Inputs to Gather

InputDescriptionExample
SchedulerSLURM, PBS, LSF, localslurm
Nodes/tasks/threadsRuntime layout2 nodes, 128 tasks, 2 threads
GPUsGPUs requested4
SymptomsObserved failureoom,killed,slow-gpu
MPI/OpenMP/GPU useParallel modesmpi+openmp+gpu
WalltimeRequested time12:00:00
ScratchWhether scratch is usedtrue

Decision Guidance

  • Check resource layout before changing physics settings.
  • Confirm module/compiler/MPI/CUDA consistency before debugging solver behavior.
  • Treat missing restart files and scratch cleanup as workflow failures, not physics failures.
  • For GPU jobs, confirm the executable was built with the requested accelerator backend.

Script Outputs

scripts/hpc_runtime_doctor.py emits:

  • resource_layout
  • diagnoses
  • environment_checks
  • retry_plan
  • scheduler_notes

Workflow

python3 skills/hpc-deployment/hpc-runtime-doctor/scripts/hpc_runtime_doctor.py \
  --scheduler slurm \
  --nodes 2 \
  --tasks 128 \
  --cpus-per-task 2 \
  --gpus 4 \
  --symptoms oom,slow-gpu \
  --uses-mpi \
  --uses-openmp \
  --uses-gpu \
  --json

Error Handling

Invalid resource counts stop with exit code 2. Unknown symptoms are preserved as custom items for human review.

Limitations

This skill does not query a live scheduler. It diagnoses from the submitted layout and symptoms.

Security

  • Inputs are scalar CLI values and booleans only.
  • The script does not execute scheduler commands or inspect environment variables.
  • The skill uses Bash only to run its bundled script.

References

  • See references/hpc_runtime_patterns.md for scheduler and runtime diagnosis patterns.

Version History

  • 1.0.0: Initial HPC runtime diagnosis skill.

GitHub リポジトリ

HeshamFS/materials-simulation-skills
パス: skills/hpc-deployment/hpc-runtime-doctor
0
agent-skillsagentscli-toolscomputational-sciencellmmaterials-science

関連スキル

executing-plans

デザイン

executing-plansスキルは、完全な実装計画があり、それを管理されたバッチでレビューチェックポイントを設けながら実行する場合に使用します。このスキルは計画を読み込んで批判的にレビューした後、小さなバッチ(デフォルトは3タスク)でタスクを実行し、各バッチの間に進捗状況を報告してアーキテクトのレビューを受けます。これにより、品質管理チェックポイントが組み込まれた体系的な実装が保証されます。

スキルを見る

requesting-code-review

デザイン

このスキルは、コードレビュアーサブエージェントを起動し、処理を進める前に要件に対してコード変更を分析します。タスク完了後、主要な機能の実装後、またはmainブランチへのマージ前などに使用すべきです。このレビューは、現在の実装と元の計画を比較することで、問題を早期に発見するのに役立ちます。

スキルを見る

connect-mcp-server

デザイン

このスキルは、開発者がHTTP、stdio、またはSSEトランスポートを使用してMCPサーバーをClaude Codeに接続するための包括的なガイドを提供します。GitHub、Notion、カスタムAPIなどの外部サービスを統合するためのインストール、設定、認証、セキュリティについて解説しています。MCP統合のセットアップ、外部ツールの設定、またはClaudeのModel Context Protocolを扱う際にご利用ください。

スキルを見る

web-cli-teleport

デザイン

このスキルは、タスク分析に基づいて開発者がClaude Code WebとCLIインターフェースの選択を支援し、これらの環境間でのシームレスなセッションテレポーテーションを可能にします。Web、CLI、モバイル環境を切り替える際のセッション状態とコンテキストを管理することで、ワークフローを最適化します。様々な段階で異なるツールを必要とする複雑なプロジェクトにご活用ください。

スキルを見る