llama-cpp
Über
Die llama-cpp-Fähigkeit ermöglicht eine effiziente LLM-Inferenz auf CPU, Apple Silicon und Nicht-NVIDIA-GPUs, was sie ideal für Edge-Deployment oder für den Fall macht, dass CUDA nicht verfügbar ist. Sie unterstützt GGUF-Quantisierung für reduzierten Speicherverbrauch und bietet erhebliche Geschwindigkeitsvorteile gegenüber PyTorch auf CPU. Verwenden Sie diese für Macs, AMD/Intel-Systeme oder eingebettete Geräte, wählen Sie jedoch TensorRT-LLM für NVIDIA-Hardware, die maximalen Durchsatz erfordert.
Schnellinstallation
Claude Code
Empfohlennpx skills add davila7/claude-code-templates -a claude-code/plugin add https://github.com/davila7/claude-code-templatesgit clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/llama-cppKopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren
GitHub Repository
Verwandte Skills
quantizing-models-bitsandbytes
AndereThis skill quantizes LLMs to 8-bit or 4-bit precision using bitsandbytes, achieving 50-75% memory reduction with minimal accuracy loss. It's ideal for running larger models on limited GPU memory or accelerating inference, supporting formats like INT8, NF4, and FP4. The skill integrates with HuggingFace Transformers and enables QLoRA training and 8-bit optimizers.
gguf-quantization
DesignThis skill enables GGUF quantization for efficient model deployment on consumer hardware like CPUs and Apple Silicon. It provides flexible 2-8 bit quantization options without requiring GPU acceleration. Use it when optimizing models for local inference tools or resource-constrained environments.
awq-quantization
AndereAWQ is a 4-bit weight quantization technique that uses activation patterns to preserve critical weights, enabling 3x faster inference with minimal accuracy loss. It's ideal for deploying large models (7B-70B) on limited GPU memory and is particularly effective for instruction-tuned and multimodal models. This skill integrates with vLLM and Marlin kernels for optimized deployment.
sglang
MetaSGLang is a high-performance LLM serving framework that uses RadixAttention for automatic prefix caching, enabling significantly faster structured generation. It's ideal for developers needing JSON/regex outputs, constrained decoding, or building agentic workflows with tool calls. Use it when you require up to 5× faster inference than alternatives like vLLM in scenarios with shared prefixes.
