huggingface-tokenizers
Über
Diese Claude Skill bietet hochperformante Tokenisierung mit Rust-basierten Implementierungen, die 1 GB Text in unter 20 Sekunden verarbeiten können. Sie unterstützt beliebte Algorithmen wie BPE, WordPiece und Unigram und ermöglicht das Training benutzerdefinierter Vokabulare sowie die Verfolgung von Textausrichtungen. Nutzen Sie sie, wenn Sie schnelle, produktionsreife Tokenisierung benötigen oder maßgeschneiderte Tokenizer für NLP-Pipelines trainieren möchten.
Schnellinstallation
Claude Code
Empfohlennpx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLsgit clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/huggingface-tokenizersKopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren
GitHub Repository
Verwandte Skills
release-standards
DokumenteDiese Fähigkeit bietet Richtlinien für semantische Versionierung (semver) und Formatierungsstandards für Changelogs bei Softwareveröffentlichungen. Nutzen Sie sie bei der Vorbereitung von Releases, um Versionsnummern (Major/Minor/Patch) korrekt zu erhöhen und Changelog-Einträge zu strukturieren. Sie enthält Regeln für Pre-Release-Kennzeichnungen und klare Beispiele für Entwickler.
commit-standards
DokumenteDiese Fähigkeit formatiert Git-Commit-Nachrichten gemäß dem Conventional Commits-Standard. Sie stellt Vorlagen und Typdefinitionen (wie `feat`, `fix`, `refactor`) bereit, um Konsistenz beim Schreiben oder Überprüfen von Commits zu gewährleisten. Verwenden Sie sie während des Commit-Prozesses, um eine klare, strukturierte Commit-Historie zu erstellen.
huggingface-tokenizers
DokumenteDiese Fähigkeit bietet eine leistungsstarke Tokenisierung mit HuggingFace's Rust-basierter Bibliothek und verarbeitet 1 GB Text in unter 20 Sekunden. Sie unterstützt BPE-, WordPiece- und Unigram-Algorithmen und ermöglicht das Training benutzerdefinierter Tokenizer sowie die Verfolgung von Ausrichtungen. Nutzen Sie sie, wenn Sie produktionsreife, schnelle Tokenisierung benötigen oder benutzerdefinierte Tokenizer erstellen möchten, die in das Transformers-Ökosystem integriert sind.
nano-pdf
Dokumentenano-pdf ist ein CLI-Tool, das Entwicklern ermöglicht, PDFs mit natürlichen Sprachbefehlen zu bearbeiten, wie etwa Text zu ändern oder Tippfehler auf bestimmten Seiten zu korrigieren. Es ist ideal für schnelle, programmatische PDF-Modifikationen direkt vom Terminal aus. Überprüfen Sie stets die Ausgabe, da die Seitennummerierung zwischen Versionen variieren kann.
