stable-diffusion-image-generation

davila7

Aktualisiert 16 days ago

425 Ansichten

18,478

1,685

18,478

Auf GitHub ansehen

MetaImage GenerationStable DiffusionDiffusersText-to-ImageMultimodalComputer Vision

Über

Diese Fähigkeit ermöglicht die Text-zu-Bild-Generierung und Bildbearbeitung mit Stable Diffusion über HuggingFace Diffusers. Sie unterstützt die Bildgenerierung aus Prompts, Bild-zu-Bild-Übersetzung, Inpainting und die Erstellung benutzerdefinierter Pipelines. Entwickler sollten sie einsetzen, wenn sie Anwendungen erstellen, die KI-gestützte visuelle Inhaltserzeugung oder -bearbeitung erfordern.

Schnellinstallation

Claude Code

GitHub Repository

davila7/claude-code-templates

Pfad: cli-tool/components/skills/ai-research/multimodal-stable-diffusion

anthropicanthropic-claudeclaudeclaude-code

Verwandte Skills

blip-2-vision-language

Design

BLIP-2 is a vision-language framework that connects a frozen image encoder with a large language model for multimodal tasks. Use it for zero-shot image captioning, visual question answering, or image-text retrieval without task-specific fine-tuning. It's ideal for developers needing to add state-of-the-art visual understanding to LLM-based applications.

Skill ansehen

audiocraft-audio-generation

whisper

Andere

Whisper is OpenAI's multilingual speech recognition model for transcription and translation across 99 languages. It handles tasks like speech-to-text, podcast transcription, and processing noisy or multilingual audio. Developers should use it for robust, production-ready automatic speech recognition (ASR).