segment-anything-model
Über
Die Segment-Anything-Model-Fähigkeit führt Zero-Shot-Bildsegmentierung durch und ermöglicht Entwicklern, Objekte mithilfe von Prompts wie Punkten oder Begrenzungsrahmen zu isolieren oder automatisch alle Objektmasken zu generieren. Sie ist ideal für den Aufbau von Annotationstools, die Erzeugung von Trainingsdaten oder die Verarbeitung von Bildern in neuen Domänen ohne aufgabenspezifisches Training. Zu den Kernfähigkeiten gehören die Verarbeitung interaktiver Prompts und eine starke Out-of-the-Box-Leistung für verschiedene Computer-Vision-Pipelines.
Schnellinstallation
Claude Code
Empfohlennpx skills add davila7/claude-code-templates -a claude-code/plugin add https://github.com/davila7/claude-code-templatesgit clone https://github.com/davila7/claude-code-templates.git ~/.claude/skills/segment-anything-modelKopieren Sie diesen Befehl und fügen Sie ihn in Claude Code ein, um diese Fähigkeit zu installieren
GitHub Repository
Verwandte Skills
blip-2-vision-language
DesignBLIP-2 is a vision-language framework that connects a frozen image encoder with a large language model for multimodal tasks. Use it for zero-shot image captioning, visual question answering, or image-text retrieval without task-specific fine-tuning. It's ideal for developers needing to add state-of-the-art visual understanding to LLM-based applications.
stable-diffusion-image-generation
MetaThis skill enables text-to-image generation and image manipulation using Stable Diffusion via HuggingFace Diffusers. It supports image generation from prompts, image-to-image translation, inpainting, and custom pipeline creation. Developers should use it when building applications requiring AI-powered visual content generation or editing.
audiocraft-audio-generation
MetaThis Claude Skill provides text-to-music and text-to-audio generation using Meta's AudioCraft PyTorch library. It enables developers to generate music from descriptions, create sound effects, and perform melody-conditioned music generation. Key capabilities include using the MusicGen and AudioGen models for controllable, high-quality stereo audio output.
whisper
AndereWhisper is OpenAI's multilingual speech recognition model for transcription and translation across 99 languages. It handles tasks like speech-to-text, podcast transcription, and processing noisy or multilingual audio. Developers should use it for robust, production-ready automatic speech recognition (ASR).
