Zurück zu Fähigkeiten

huggingface-tokenizers

zechenzhangAGI
Aktualisiert 28 days ago
328 Ansichten
62
2
62
Auf GitHub ansehen
Dokumentewordai

Über

Diese Claude Skill bietet hochperformante Tokenisierung mit Rust-basierten Implementierungen, die 1 GB Text in unter 20 Sekunden verarbeiten können. Sie unterstützt beliebte Algorithmen wie BPE, WordPiece und Unigram und ermöglicht das Training benutzerdefinierter Vokabulare sowie die Verfolgung von Textausrichtungen. Nutzen Sie sie, wenn Sie schnelle, produktionsreife Tokenisierung benötigen oder maßgeschneiderte Tokenizer für NLP-Pipelines trainieren möchten.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add zechenzhangAGI/AI-research-SKILLs -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/zechenzhangAGI/AI-research-SKILLs
Git CloneAlternativ
git clone https://github.com/zechenzhangAGI/AI-research-SKILLs.git ~/.claude/skills/huggingface-tokenizers

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

zechenzhangAGI/AI-research-SKILLs
Pfad: 02-tokenization/huggingface-tokenizers
0
aiai-researchclaudeclaude-codeclaude-skillscodex

Verwandte Skills

release-standards

Dokumente

Diese Fähigkeit bietet Richtlinien für semantische Versionierung (semver) und Formatierungsstandards für Changelogs bei Softwareveröffentlichungen. Nutzen Sie sie bei der Vorbereitung von Releases, um Versionsnummern (Major/Minor/Patch) korrekt zu erhöhen und Changelog-Einträge zu strukturieren. Sie enthält Regeln für Pre-Release-Kennzeichnungen und klare Beispiele für Entwickler.

Skill ansehen

commit-standards

Dokumente

Diese Fähigkeit formatiert Git-Commit-Nachrichten gemäß dem Conventional Commits-Standard. Sie stellt Vorlagen und Typdefinitionen (wie `feat`, `fix`, `refactor`) bereit, um Konsistenz beim Schreiben oder Überprüfen von Commits zu gewährleisten. Verwenden Sie sie während des Commit-Prozesses, um eine klare, strukturierte Commit-Historie zu erstellen.

Skill ansehen

huggingface-tokenizers

Dokumente

Diese Fähigkeit bietet eine leistungsstarke Tokenisierung mit HuggingFace's Rust-basierter Bibliothek und verarbeitet 1 GB Text in unter 20 Sekunden. Sie unterstützt BPE-, WordPiece- und Unigram-Algorithmen und ermöglicht das Training benutzerdefinierter Tokenizer sowie die Verfolgung von Ausrichtungen. Nutzen Sie sie, wenn Sie produktionsreife, schnelle Tokenisierung benötigen oder benutzerdefinierte Tokenizer erstellen möchten, die in das Transformers-Ökosystem integriert sind.

Skill ansehen

nano-pdf

Dokumente

nano-pdf ist ein CLI-Tool, das Entwicklern ermöglicht, PDFs mit natürlichen Sprachbefehlen zu bearbeiten, wie etwa Text zu ändern oder Tippfehler auf bestimmten Seiten zu korrigieren. Es ist ideal für schnelle, programmatische PDF-Modifikationen direkt vom Terminal aus. Überprüfen Sie stets die Ausgabe, da die Seitennummerierung zwischen Versionen variieren kann.

Skill ansehen