MCP HubMCP Hub
Вернуться к навыкам

huggingface-tokenizers

zechenzhangAGI
Обновлено 28 days ago
321 просмотров
62
2
62
Посмотреть на GitHub
Документыwordai

О программе

Этот навык Claude обеспечивает высокопроизводительную токенизацию с использованием реализаций на Rust, способных обработать 1 ГБ текста менее чем за 20 секунд. Он поддерживает популярные алгоритмы, такие как BPE, WordPiece и Unigram, а также позволяет создавать пользовательские словари и отслеживать выравнивание. Используйте его, когда вам нужна быстрая готовая к производству токенизация или необходимо обучить кастомные токенизаторы для NLP-пайплайнов.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git клонированиеАльтернативный
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/huggingface-tokenizers

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

GitHub репозиторий

zechenzhangAGI/AI-research-SKILLs
Путь: 02-tokenization/huggingface-tokenizers
0
aiai-researchclaudeclaude-codeclaude-skillscodex

Похожие навыки

release-standards

Документы

Этот навык предоставляет рекомендации по семантическому версионированию (semver) и стандарты форматирования журнала изменений для релизов программного обеспечения. Используйте его при подготовке выпусков, чтобы правильно увеличивать номера версий (мажорные/минорные/патчи) и структурировать записи в журнале изменений. Он включает правила для идентификаторов предварительных релизов и понятные примеры для разработчиков.

Просмотреть навык

commit-standards

Документы

Этот навык форматирует сообщения коммитов Git в соответствии со стандартом Conventional Commits. Он предоставляет шаблоны и определения типов (такие как `feat`, `fix`, `refactor`), чтобы обеспечить единообразие при написании или проверке коммитов. Используйте его в процессе создания коммитов для формирования понятной и структурированной истории изменений.

Просмотреть навык

huggingface-tokenizers

Документы

Этот навык обеспечивает высокопроизводительную токенизацию с использованием Rust-библиотеки от HuggingFace, обрабатывая 1 ГБ текста менее чем за 20 секунд. Он поддерживает алгоритмы BPE, WordPiece и Unigram, а также позволяет обучать пользовательские токенизаторы и отслеживать выравнивание. Используйте его, когда требуется производственно-быстрая токенизация или для создания пользовательских токенизаторов, интегрированных с экосистемой transformers.

Просмотреть навык

nano-pdf

Документы

nano-pdf — это инструмент командной строки, который позволяет разработчикам редактировать PDF-файлы с помощью инструкций на естественном языке, например, изменять текст или исправлять опечатки на конкретных страницах. Он идеально подходит для быстрых программных изменений PDF прямо из терминала. Всегда проверяйте результат, так как нумерация страниц может различаться в разных версиях.

Просмотреть навык