Zurück zu Fähigkeiten

sglang

davila7
Aktualisiert 11 days ago
430 Ansichten
18,478
1,685
18,478
Auf GitHub ansehen
MetaInference ServingSGLangStructured GenerationRadixAttentionPrefix CachingConstrained DecodingAgentsJSON OutputFast InferenceProduction Scale

Über

SGLang ist ein hochleistungsfähiges LLM-Serving-Framework, das RadixAttention für automatisches Prefix-Caching nutzt und dadurch deutlich schnellere strukturierte Generierung ermöglicht. Es ist ideal für Entwickler, die JSON-/Regex-Ausgaben, eingeschränkte Dekodierung oder die Erstellung agentenbasierter Workflows mit Tool-Aufrufen benötigen. Verwenden Sie es, wenn Sie in Szenarien mit gemeinsamen Präfixen bis zu 5-mal schnellere Inferenz als bei Alternativen wie vLLM benötigen.

Schnellinstallation

Claude Code

Empfohlen
Primär
npx skills add davila7/claude-code-templates -a claude-code
Plugin-BefehlAlternativ
/plugin add https://github.com/davila7/claude-code-templates
Git CloneAlternativ
git clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/sglang

Kopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren

GitHub Repository

davila7/claude-code-templates
Pfad: cli-tool/components/skills/ai-research/inference-serving-sglang
0
anthropicanthropic-claudeclaudeclaude-code

Verwandte Skills

awq-quantization

Andere

AWQ is a 4-bit weight quantization technique that uses activation patterns to preserve critical weights, enabling 3x faster inference with minimal accuracy loss. It's ideal for deploying large models (7B-70B) on limited GPU memory and is particularly effective for instruction-tuned and multimodal models. This skill integrates with vLLM and Marlin kernels for optimized deployment.

Skill ansehen

crewai-multi-agent

Meta

CrewAI is a lightweight multi-agent orchestration framework for building teams of specialized AI agents that collaborate autonomously on complex tasks. It enables role-based agent collaboration with memory and supports sequential or hierarchical workflows for production use. The framework is built without LangChain dependencies for lean, fast execution.

Skill ansehen

autogpt-agents

Meta

AutoGPT Agents is a platform for building and deploying persistent, autonomous AI agents using visual workflows or code. It's ideal for developers creating complex, multi-step automation systems that require continuous operation or external triggers. Key features include a drag-and-drop visual builder and support for deploying agents via webhooks and schedules.

Skill ansehen

llama-cpp

Andere

The llama-cpp skill enables efficient LLM inference on CPU, Apple Silicon, and non-NVIDIA GPUs, making it ideal for edge deployment or when CUDA is unavailable. It supports GGUF quantization for reduced memory usage and offers significant speedups over PyTorch on CPU. Use this for Macs, AMD/Intel systems, or embedded devices, but choose TensorRT-LLM for NVIDIA hardware requiring maximum throughput.

Skill ansehen