whisper-transcription
Acerca de
Esta habilidad transcribe archivos de audio y video a texto utilizando el modelo Whisper de OpenAI. Es ideal para desarrolladores que necesitan generar subtítulos, convertir podcasts a texto o crear archivos de audio con capacidad de búsqueda. Sus capacidades clave incluyen extraer citas de entrevistas y reutilizar contenido multimedia en formatos escritos.
Instalación rápida
Claude Code
Recomendadonpx skills add guia-matthieu/clawfu-skills -a claude-code/plugin add https://github.com/guia-matthieu/clawfu-skillsgit clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/whisper-transcriptionCopia y pega este comando en Claude Code para instalar esta habilidad
Documentación
Whisper Transcription
Transcribe any audio or video to text using OpenAI's Whisper model - the same technology powering ChatGPT voice features.
When to Use This Skill
- Podcast repurposing - Convert episodes to blog posts, show notes, social snippets
- Video subtitles - Generate SRT/VTT files for YouTube, social media
- Interview extraction - Pull quotes and insights from recorded calls
- Content audit - Make audio/video libraries searchable
- Translation - Transcribe and translate foreign language content
What Claude Does vs What You Decide
| Claude Does | You Decide |
|---|---|
| Structures production workflow | Final creative direction |
| Suggests technical approaches | Equipment and tool choices |
| Creates templates and checklists | Quality standards |
| Identifies best practices | Brand/voice decisions |
| Generates script outlines | Final script approval |
Dependencies
pip install openai-whisper torch ffmpeg-python click
# Also requires ffmpeg installed on system
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg
Commands
Transcribe Single File
python scripts/main.py transcribe audio.mp3 --model medium --output transcript.txt
python scripts/main.py transcribe video.mp4 --format srt --output subtitles.srt
Batch Transcription
python scripts/main.py batch ./recordings/ --format txt --output ./transcripts/
Transcribe + Translate
python scripts/main.py translate foreign-audio.mp3 --to en
Extract Timestamps
python scripts/main.py timestamps podcast.mp3 --format json
Examples
Example 1: Podcast to Blog Post
# Transcribe 1-hour podcast
python scripts/main.py transcribe episode-42.mp3 --model medium
# Output: episode-42.txt (full transcript with timestamps)
# Processing time: ~5 min for 1 hour audio on M1 Mac
Example 2: YouTube Subtitles
# Generate SRT for video upload
python scripts/main.py transcribe marketing-video.mp4 --format srt
# Output: marketing-video.srt
# Upload directly to YouTube/Vimeo
Example 3: Batch Process Interview Library
# Transcribe all recordings in folder
python scripts/main.py batch ./customer-interviews/ --model small --format txt
# Output: ./customer-interviews/*.txt (one per audio file)
Model Selection Guide
| Model | Speed | Accuracy | VRAM | Best For |
|---|---|---|---|---|
tiny | Fastest | ~70% | 1GB | Quick drafts, short clips |
base | Fast | ~80% | 1GB | Social media clips |
small | Medium | ~85% | 2GB | Podcasts, interviews |
medium | Slow | ~90% | 5GB | Professional transcripts |
large | Slowest | ~95% | 10GB | Critical accuracy needs |
Recommendation: Start with small for most marketing content. Use medium for client deliverables.
Output Formats
| Format | Extension | Use Case |
|---|---|---|
txt | .txt | Blog posts, analysis |
srt | .srt | Video subtitles (YouTube) |
vtt | .vtt | Web video subtitles |
json | .json | Programmatic access |
tsv | .tsv | Spreadsheet analysis |
Performance Tips
- GPU acceleration - 10x faster with CUDA GPU
- Audio extraction - Script auto-extracts audio from video
- Chunking - Long files auto-split for memory efficiency
- Language detection - Automatic, or specify with
--language
Skill Boundaries
What This Skill Does Well
- Structuring audio production workflows
- Providing technical guidance
- Creating quality checklists
- Suggesting creative approaches
What This Skill Cannot Do
- Replace audio engineering expertise
- Make subjective creative decisions
- Access or edit audio files directly
- Guarantee commercial success
Related Skills
- video-processing - Extract audio from video
- youtube-downloader - Download videos to transcribe
- content-repurposer - Transform transcripts to content
- podcast-production - Create podcasts
Skill Metadata
- Mode: cyborg
category: automation
subcategory: audio-processing
dependencies: [openai-whisper, torch, ffmpeg-python]
difficulty: beginner
time_saved: 10+ hours/week
Repositorio GitHub
Habilidades relacionadas
content-collections
MetaEsta habilidad proporciona una configuración probada en producción para Content Collections, una herramienta centrada en TypeScript que transforma archivos Markdown/MDX en colecciones de datos con tipado seguro mediante validación Zod. Úsala al construir blogs, sitios de documentación o aplicaciones Vite + React con mucho contenido para garantizar seguridad de tipos y validación automática de contenido. Abarca todo, desde la configuración del plugin de Vite y compilación MDX hasta la optimización de despliegue y validación de esquemas.
polymarket
MetaEsta habilidad permite a los desarrolladores crear aplicaciones con la plataforma de mercados de predicción Polymarket, incluyendo la integración de API para operaciones y datos de mercado. También proporciona transmisión de datos en tiempo real a través de WebSocket para monitorear operaciones en vivo y actividad del mercado. Úsela para implementar estrategias de trading o crear herramientas que procesen actualizaciones de mercado en tiempo real.
creating-opencode-plugins
MetaEsta habilidad ayuda a los desarrolladores a crear complementos de OpenCode que se conectan a más de 25 tipos de eventos, como comandos, archivos y operaciones LSP. Proporciona la estructura del complemento, las especificaciones de la API de eventos y los patrones de implementación para módulos en JavaScript/TypeScript. Úsala cuando necesites interceptar, monitorear o extender el ciclo de vida del asistente de IA de OpenCode con lógica personalizada basada en eventos.
sglang
MetaSGLang es un framework de alto rendimiento para el servicio de LLM que se especializa en generación rápida y estructurada para JSON, expresiones regulares y flujos de trabajo de agentes utilizando su caché de prefijos RadixAttention. Ofrece una inferencia significativamente más rápida, especialmente para tareas con prefijos repetidos, lo que lo hace ideal para salidas complejas y estructuradas, y conversaciones multiturno. Elige SGLang sobre alternativas como vLLM cuando necesites decodificación restringida o estés construyendo aplicaciones con uso extensivo de prefijos compartidos.
