SKILL·DDDE8A

benchmark-and-mms-planner

Name: benchmark-and-mms-planner
Author: HeshamFS

HeshamFS

Actualizado 1 month ago

9 vistas

Pruebasai

Acerca de

Esta habilidad de Claude ayuda a los desarrolladores a crear planes de verificación y validación para códigos de simulación, con el fin de garantizar resultados confiables. Proporciona metodologías estructuradas que incluyen soluciones manufacturadas, problemas de referencia y estudios de refinamiento con criterios de aprobación/rechazo. Úsala cuando necesites demostrar rigurosamente la corrección de un solver, en lugar de solo mostrar su plausibilidad.

Instalación rápida

Claude Code

Recomendado

Principal

npx skills add HeshamFS/materials-simulation-skills -a claude-code

Comando PluginAlternativo

/plugin add https://github.com/HeshamFS/materials-simulation-skills

Git CloneAlternativo

git clone https://github.com/HeshamFS/materials-simulation-skills.git ~/.claude/skills/benchmark-and-mms-planner

Copia y pega este comando en Claude Code para instalar esta habilidad

Documentación

Benchmark And MMS Planner

Goal

Design a verification and validation plan before trusting simulation results. The skill helps agents choose manufactured solutions, benchmark cases, refinement protocols, uncertainty checks, and pass/fail criteria.

Requirements

Python 3.10+
No external dependencies
Works on Linux, macOS, and Windows

Inputs to Gather

Input	Description	Example
PDE or model class	Governing family	`diffusion`, `elasticity`, `phase-field`
Quantity of interest	Metric to validate	`interface velocity`, `L2 temperature error`
Dimension	1, 2, or 3	`2`
Expected order	Formal discretization order	`2`
Reference availability	Analytic, benchmark, or none	`analytic`
Risk level	Cost or consequence of wrong result	`high`

Decision Guidance

Use MMS when code correctness is uncertain and an analytic solution can be injected.
Use canonical benchmarks when physical model validation matters more than code verification.
Use grid/time refinement whenever the result is used for a claim, design decision, or comparison.
Use uncertainty propagation when inputs are calibrated, noisy, or experimentally measured.

Script Outputs

scripts/benchmark_mms_planner.py emits inputs and results with:

verification_strategy
mms_plan
benchmark_cases
refinement_protocol
acceptance_criteria
warnings

Workflow

Collect the governing model, quantity of interest, and risk level.
Run benchmark_mms_planner.py --json.
Treat warnings as blockers for high-risk claims.
Convert the returned protocol into tests, simulation runs, or review checklist items.

python3 skills/verification-validation/benchmark-and-mms-planner/scripts/benchmark_mms_planner.py \
  --model diffusion \
  --quantity "L2 error in temperature" \
  --dimension 2 \
  --expected-order 2 \
  --reference analytic \
  --risk high \
  --json

Error Handling

If the dimension or expected order is invalid, stop and correct the model description.
If no reference exists, use conservation and convergence checks but do not call the result validated.

Limitations

This skill plans verification work; it does not run the solver or prove that a physical model is appropriate for an experiment.

Security

Inputs are scalar strings and finite numeric values only.
The script does not execute external solvers.
File writes are not performed.
The skill uses Bash only to run its bundled script.

References

See references/vv_patterns.md for MMS, benchmark, and uncertainty planning notes.

Version History

1.0.0: Initial benchmark and MMS planning skill.

Repositorio GitHub

HeshamFS/materials-simulation-skills

Ruta: skills/verification-validation/benchmark-and-mms-planner

agent-skillsagentscli-toolscomputational-sciencellmmaterials-science

FAQ

Frequently asked questions

What is the benchmark-and-mms-planner skill?

benchmark-and-mms-planner is a Claude Skill by HeshamFS. Skills package instructions and resources that Claude loads on demand, so Claude can perform benchmark-and-mms-planner-related tasks without extra prompting.

How do I install benchmark-and-mms-planner?

Use the install commands on this page: add benchmark-and-mms-planner to Claude Code as a plugin, or clone its repository into your skills directory, then restart Claude so it picks up the skill.

What category does benchmark-and-mms-planner belong to?

benchmark-and-mms-planner is in the Testing category, tagged ai.

Is benchmark-and-mms-planner free to use?

Yes. benchmark-and-mms-planner is listed on AIMCP and free to install. It runs inside Claude, so no separate service account is required to use the skill itself.

Habilidades relacionadas

evaluating-llms-harness

Pruebas

Esta Skill de Claude ejecuta el benchmark lm-evaluation-harness para evaluar modelos de lenguaje en más de 60 tareas académicas estandarizadas como MMLU y GSM8K. Está diseñada para que los desarrolladores comparen la calidad de los modelos, realicen seguimiento del progreso del entrenamiento o reporten resultados académicos. La herramienta admite varios backends, incluidos modelos de HuggingFace y vLLM.

Ver habilidad

cloudflare-cron-triggers

Pruebas

Esta habilidad proporciona conocimiento integral para implementar Cron Triggers de Cloudflare y programar Workers mediante expresiones cron. Cubre la configuración de tareas periódicas, trabajos de mantenimiento y flujos de trabajo automatizados, manejando problemas comunes como expresiones cron inválidas y inconvenientes de zonas horarias. Los desarrolladores pueden utilizarla para configurar manejadores programados, probar activadores cron e integrar con Workflows y Green Compute.

Ver habilidad

webapp-testing

Pruebas

Esta habilidad de Claude proporciona un kit de herramientas basado en Playwright para probar aplicaciones web locales mediante scripts de Python. Permite verificación de frontend, depuración de interfaz de usuario, captura de pantallas y visualización de registros, mientras gestiona los ciclos de vida del servidor. Úsela para tareas de automatización de navegadores, pero ejecute los scripts directamente en lugar de leer su código fuente para evitar contaminación del contexto.

Ver habilidad

finishing-a-development-branch

Pruebas

Esta habilidad ayuda a los desarrolladores a completar el trabajo terminado verificando que las pruebas pasen y luego presentando opciones estructuradas de integración. Guía el flujo de trabajo para fusionar, crear PRs o limpiar ramas después de que se completa la implementación. Úsala cuando tu código esté listo y probado para finalizar sistemáticamente el proceso de desarrollo.

Ver habilidad