MCP HubMCP Hub
Volver a habilidades

huggingface-tokenizers

zechenzhangAGI
Actualizado 28 days ago
320 vistas
62
2
62
Ver en GitHub
Documentoswordai

Acerca de

Esta habilidad de Claude proporciona tokenización de alto rendimiento utilizando implementaciones basadas en Rust que pueden procesar 1GB de texto en menos de 20 segundos. Soporta algoritmos populares como BPE, WordPiece y Unigram, además de permitir el entrenamiento de vocabularios personalizados y el seguimiento de alineaciones. Úsela cuando necesite tokenización rápida lista para producción o desee entrenar tokenizadores personalizados para pipelines de PLN.

Instalación rápida

Claude Code

Recomendado
Principal
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
Comando PluginAlternativo
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git CloneAlternativo
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/huggingface-tokenizers

Copia y pega este comando en Claude Code para instalar esta habilidad

Repositorio GitHub

zechenzhangAGI/AI-research-SKILLs
Ruta: 02-tokenization/huggingface-tokenizers
0
aiai-researchclaudeclaude-codeclaude-skillscodex

Habilidades relacionadas

release-standards

Documentos

Esta habilidad proporciona pautas de versionado semántico (semver) y estándares de formato para el changelog en lanzamientos de software. Úsela al preparar lanzamientos para incrementar correctamente los números de versión (principal/secundario/parche) y estructurar las entradas del changelog. Incluye reglas para identificadores de pre-lanzamiento y ejemplos claros para desarrolladores.

Ver habilidad

commit-standards

Documentos

Esta habilidad formatea los mensajes de commit de Git según el estándar Conventional Commits. Proporciona plantillas y definiciones de tipos (como `feat`, `fix`, `refactor`) para garantizar consistencia al escribir o revisar commits. Úsala durante el proceso de commit para crear un historial de commits claro y estructurado.

Ver habilidad

huggingface-tokenizers

Documentos

Esta habilidad proporciona tokenización de alto rendimiento utilizando la biblioteca basada en Rust de HuggingFace, procesando 1GB de texto en menos de 20 segundos. Soporta algoritmos BPE, WordPiece y Unigram, además de permitir el entrenamiento de tokenizadores personalizados y el seguimiento de alineaciones. Úsela cuando necesite tokenización rápida para producción o para construir tokenizadores personalizados integrados en el ecosistema de transformers.

Ver habilidad

nano-pdf

Documentos

nano-pdf es una herramienta CLI que permite a los desarrolladores editar PDFs usando instrucciones en lenguaje natural, como cambiar texto o corregir errores tipográficos en páginas específicas. Es ideal para modificaciones rápidas y programáticas de PDFs directamente desde la terminal. Siempre verifica la salida, ya que la numeración de páginas puede variar entre versiones.

Ver habilidad