MCP HubMCP Hub
Вернуться к навыкам

hpc-runtime-doctor

HeshamFS
Обновлено 2 days ago
5 просмотров
40
3
40
Посмотреть на GitHub
Дизайнaiapi

О программе

Этот навык Claude диагностирует проблемы среды выполнения и планировщика для высокопроизводительных вычислений (HPC) в материаловедческих симуляциях. Он анализирует такие проблемы, как конфигурация MPI/OpenMP, использование GPU, модули окружения и несоответствия ресурсов, когда задания завершаются с ошибкой или работают неэффективно в кластере. Используйте его для получения диагноза, контрольного списка окружения и безопасного плана повторного запуска при проблемах с переносимостью и производительностью.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add HeshamFS/materials-simulation-skills -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/HeshamFS/materials-simulation-skills
Git клонированиеАльтернативный
git clone https://github.com/HeshamFS/materials-simulation-skills.git ~/.claude/skills/hpc-runtime-doctor

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

HPC Runtime Doctor

Goal

Turn cluster symptoms into a resource-layout diagnosis, environment checklist, and safe retry plan.

Requirements

  • Python 3.10+
  • No external dependencies
  • Works on Linux, macOS, and Windows

Inputs to Gather

InputDescriptionExample
SchedulerSLURM, PBS, LSF, localslurm
Nodes/tasks/threadsRuntime layout2 nodes, 128 tasks, 2 threads
GPUsGPUs requested4
SymptomsObserved failureoom,killed,slow-gpu
MPI/OpenMP/GPU useParallel modesmpi+openmp+gpu
WalltimeRequested time12:00:00
ScratchWhether scratch is usedtrue

Decision Guidance

  • Check resource layout before changing physics settings.
  • Confirm module/compiler/MPI/CUDA consistency before debugging solver behavior.
  • Treat missing restart files and scratch cleanup as workflow failures, not physics failures.
  • For GPU jobs, confirm the executable was built with the requested accelerator backend.

Script Outputs

scripts/hpc_runtime_doctor.py emits:

  • resource_layout
  • diagnoses
  • environment_checks
  • retry_plan
  • scheduler_notes

Workflow

python3 skills/hpc-deployment/hpc-runtime-doctor/scripts/hpc_runtime_doctor.py \
  --scheduler slurm \
  --nodes 2 \
  --tasks 128 \
  --cpus-per-task 2 \
  --gpus 4 \
  --symptoms oom,slow-gpu \
  --uses-mpi \
  --uses-openmp \
  --uses-gpu \
  --json

Error Handling

Invalid resource counts stop with exit code 2. Unknown symptoms are preserved as custom items for human review.

Limitations

This skill does not query a live scheduler. It diagnoses from the submitted layout and symptoms.

Security

  • Inputs are scalar CLI values and booleans only.
  • The script does not execute scheduler commands or inspect environment variables.
  • The skill uses Bash only to run its bundled script.

References

  • See references/hpc_runtime_patterns.md for scheduler and runtime diagnosis patterns.

Version History

  • 1.0.0: Initial HPC runtime diagnosis skill.

GitHub репозиторий

HeshamFS/materials-simulation-skills
Путь: skills/hpc-deployment/hpc-runtime-doctor
0
agent-skillsagentscli-toolscomputational-sciencellmmaterials-science

Похожие навыки

executing-plans

Дизайн

Используйте навык executing-plans, когда у вас есть полный план реализации для выполнения контролируемыми партиями с контрольными точками проверки. Он загружает и критически анализирует план, затем выполняет задачи небольшими партиями (по умолчанию 3 задачи), сообщая о прогрессе между каждой партией для проверки архитектором. Это обеспечивает систематическую реализацию со встроенными контрольными точками проверки качества.

Просмотреть навык

requesting-code-review

Дизайн

Этот навык запускает суб-агента для ревью кода, который анализирует изменения в коде на соответствие требованиям перед дальнейшими действиями. Его следует использовать после завершения задач, реализации крупных функций или перед слиянием с основной веткой. Ревью помогает выявить проблемы на ранней стадии, сравнивая текущую реализацию с исходным планом.

Просмотреть навык

connect-mcp-server

Дизайн

Этот навык предоставляет разработчикам подробное руководство по подключению серверов MCP к Claude Code с использованием транспортов HTTP, stdio или SSE. Он охватывает установку, конфигурацию, аутентификацию и безопасность для интеграции внешних сервисов, таких как GitHub, Notion и пользовательские API. Используйте его при настройке интеграций MCP, конфигурации внешних инструментов или работе с Model Context Protocol от Claude.

Просмотреть навык

web-cli-teleport

Дизайн

Этот навык помогает разработчикам выбирать между веб-интерфейсом Claude Code и CLI на основе анализа задачи, а также обеспечивает бесшовное перемещение сессий между этими средами. Он оптимизирует рабочий процесс, управляя состоянием и контекстом сессии при переключении между веб-интерфейсом, CLI или мобильным приложением. Используйте его для сложных проектов, требующих различных инструментов на разных этапах работы.

Просмотреть навык