Zurück zu Fähigkeiten

awq-quantization

davila7
Aktualisiert 16 days ago
440 Ansichten
18,478
1,685
18,478
Auf GitHub ansehen
AndereOptimizationAWQQuantization4-BitActivation-AwareMemory OptimizationFast InferencevLLM IntegrationMarlin Kernels

Über

AWQ ist eine 4-Bit-Gewichtsquantisierungstechnik, die Aktivierungsmuster nutzt, um kritische Gewichte zu erhalten, wodurch eine 3-mal schnellere Inferenz mit minimalem Genauigkeitsverlust ermöglicht wird. Sie ist ideal für die Bereitstellung großer Modelle (7B–70B) auf begrenztem GPU-Speicher und besonders effektiv für instruktionsoptimierte und multimodale Modelle. Diese Fähigkeit integriert sich mit vLLM- und Marlin-Kernen für eine optimierte Bereitstellung.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add davila7/claude-code-templates -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/davila7/claude-code-templates
Git CloneAlternativ
git clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/awq-quantization

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

davila7/claude-code-templates
Pfad: cli-tool/components/skills/ai-research/optimization-awq
0
anthropicanthropic-claudeclaudeclaude-code

Verwandte Skills

quantizing-models-bitsandbytes

Andere

This skill quantizes LLMs to 8-bit or 4-bit precision using bitsandbytes, achieving 50-75% memory reduction with minimal accuracy loss. It's ideal for running larger models on limited GPU memory or accelerating inference, supporting formats like INT8, NF4, and FP4. The skill integrates with HuggingFace Transformers and enables QLoRA training and 8-bit optimizers.

Skill ansehen

gguf-quantization

Design

This skill enables GGUF quantization for efficient model deployment on consumer hardware like CPUs and Apple Silicon. It provides flexible 2-8 bit quantization options without requiring GPU acceleration. Use it when optimizing models for local inference tools or resource-constrained environments.

Skill ansehen

sglang

Meta

SGLang is a high-performance LLM serving framework that uses RadixAttention for automatic prefix caching, enabling significantly faster structured generation. It's ideal for developers needing JSON/regex outputs, constrained decoding, or building agentic workflows with tool calls. Use it when you require up to 5× faster inference than alternatives like vLLM in scenarios with shared prefixes.

Skill ansehen

hqq-quantization

Andere

HQQ enables fast, calibration-free quantization of LLMs down to 4/3/2-bit precision without needing a dataset. It's ideal for rapid quantization workflows and deployment with vLLM or HuggingFace Transformers. Key advantages include significantly faster quantization than methods like GPTQ and support for fine-tuning quantized models.

Skill ansehen