MCP HubMCP Hub
Volver a habilidades

benchmark-and-mms-planner

HeshamFS
Actualizado Yesterday
3 vistas
40
3
40
Ver en GitHub
Pruebasai

Acerca de

Esta habilidad de Claude ayuda a los desarrolladores a crear planes de verificación y validación para códigos de simulación, con el fin de garantizar resultados confiables. Proporciona metodologías estructuradas que incluyen soluciones manufacturadas, problemas de referencia y estudios de refinamiento con criterios de aprobación/rechazo. Úsala cuando necesites demostrar rigurosamente la corrección de un solver, en lugar de solo mostrar su plausibilidad.

Instalación rápida

Claude Code

Recomendado
Principal
npx skills add HeshamFS/materials-simulation-skills -a claude-code
Comando PluginAlternativo
/plugin add https://github.com/HeshamFS/materials-simulation-skills
Git CloneAlternativo
git clone https://github.com/HeshamFS/materials-simulation-skills.git ~/.claude/skills/benchmark-and-mms-planner

Copia y pega este comando en Claude Code para instalar esta habilidad

Documentación

Benchmark And MMS Planner

Goal

Design a verification and validation plan before trusting simulation results. The skill helps agents choose manufactured solutions, benchmark cases, refinement protocols, uncertainty checks, and pass/fail criteria.

Requirements

  • Python 3.10+
  • No external dependencies
  • Works on Linux, macOS, and Windows

Inputs to Gather

InputDescriptionExample
PDE or model classGoverning familydiffusion, elasticity, phase-field
Quantity of interestMetric to validateinterface velocity, L2 temperature error
Dimension1, 2, or 32
Expected orderFormal discretization order2
Reference availabilityAnalytic, benchmark, or noneanalytic
Risk levelCost or consequence of wrong resulthigh

Decision Guidance

  • Use MMS when code correctness is uncertain and an analytic solution can be injected.
  • Use canonical benchmarks when physical model validation matters more than code verification.
  • Use grid/time refinement whenever the result is used for a claim, design decision, or comparison.
  • Use uncertainty propagation when inputs are calibrated, noisy, or experimentally measured.

Script Outputs

scripts/benchmark_mms_planner.py emits inputs and results with:

  • verification_strategy
  • mms_plan
  • benchmark_cases
  • refinement_protocol
  • acceptance_criteria
  • warnings

Workflow

  1. Collect the governing model, quantity of interest, and risk level.
  2. Run benchmark_mms_planner.py --json.
  3. Treat warnings as blockers for high-risk claims.
  4. Convert the returned protocol into tests, simulation runs, or review checklist items.
python3 skills/verification-validation/benchmark-and-mms-planner/scripts/benchmark_mms_planner.py \
  --model diffusion \
  --quantity "L2 error in temperature" \
  --dimension 2 \
  --expected-order 2 \
  --reference analytic \
  --risk high \
  --json

Error Handling

  • If the dimension or expected order is invalid, stop and correct the model description.
  • If no reference exists, use conservation and convergence checks but do not call the result validated.

Limitations

This skill plans verification work; it does not run the solver or prove that a physical model is appropriate for an experiment.

Security

  • Inputs are scalar strings and finite numeric values only.
  • The script does not execute external solvers.
  • File writes are not performed.
  • The skill uses Bash only to run its bundled script.

References

  • See references/vv_patterns.md for MMS, benchmark, and uncertainty planning notes.

Version History

  • 1.0.0: Initial benchmark and MMS planning skill.

Repositorio GitHub

HeshamFS/materials-simulation-skills
Ruta: skills/verification-validation/benchmark-and-mms-planner
0
agent-skillsagentscli-toolscomputational-sciencellmmaterials-science

Habilidades relacionadas

evaluating-llms-harness

Pruebas

Esta Skill de Claude ejecuta el benchmark lm-evaluation-harness para evaluar modelos de lenguaje en más de 60 tareas académicas estandarizadas como MMLU y GSM8K. Está diseñada para que los desarrolladores comparen la calidad de los modelos, realicen seguimiento del progreso del entrenamiento o reporten resultados académicos. La herramienta admite varios backends, incluidos modelos de HuggingFace y vLLM.

Ver habilidad

cloudflare-cron-triggers

Pruebas

Esta habilidad proporciona conocimiento integral para implementar Cron Triggers de Cloudflare y programar Workers mediante expresiones cron. Cubre la configuración de tareas periódicas, trabajos de mantenimiento y flujos de trabajo automatizados, manejando problemas comunes como expresiones cron inválidas y inconvenientes de zonas horarias. Los desarrolladores pueden utilizarla para configurar manejadores programados, probar activadores cron e integrar con Workflows y Green Compute.

Ver habilidad

webapp-testing

Pruebas

Esta habilidad de Claude proporciona un kit de herramientas basado en Playwright para probar aplicaciones web locales mediante scripts de Python. Permite verificación de frontend, depuración de interfaz de usuario, captura de pantallas y visualización de registros, mientras gestiona los ciclos de vida del servidor. Úsela para tareas de automatización de navegadores, pero ejecute los scripts directamente en lugar de leer su código fuente para evitar contaminación del contexto.

Ver habilidad

finishing-a-development-branch

Pruebas

Esta habilidad ayuda a los desarrolladores a completar el trabajo terminado verificando que las pruebas pasen y luego presentando opciones estructuradas de integración. Guía el flujo de trabajo para fusionar, crear PRs o limpiar ramas después de que se completa la implementación. Úsala cuando tu código esté listo y probado para finalizar sistemáticamente el proceso de desarrollo.

Ver habilidad