MCP HubMCP Hub
Вернуться к навыкам

whisper-transcription

guia-matthieu
Обновлено Yesterday
1 просмотров
111
20
111
Посмотреть на GitHub
Метаaidesign

О программе

Этот навык транскрибирует аудио- и видеофайлы в текст с использованием модели Whisper от OpenAI. Он идеально подходит для разработчиков, которым необходимо создавать субтитры, конвертировать подкасты в текст или создавать доступные для поиска аудиоархивы. Ключевые возможности включают извлечение цитат из интервью и преобразование мультимедийного контента в письменные форматы.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add guia-matthieu/clawfu-skills -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/guia-matthieu/clawfu-skills
Git клонированиеАльтернативный
git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/whisper-transcription

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

Whisper Transcription

Transcribe any audio or video to text using OpenAI's Whisper model - the same technology powering ChatGPT voice features.

When to Use This Skill

  • Podcast repurposing - Convert episodes to blog posts, show notes, social snippets
  • Video subtitles - Generate SRT/VTT files for YouTube, social media
  • Interview extraction - Pull quotes and insights from recorded calls
  • Content audit - Make audio/video libraries searchable
  • Translation - Transcribe and translate foreign language content

What Claude Does vs What You Decide

Claude DoesYou Decide
Structures production workflowFinal creative direction
Suggests technical approachesEquipment and tool choices
Creates templates and checklistsQuality standards
Identifies best practicesBrand/voice decisions
Generates script outlinesFinal script approval

Dependencies

pip install openai-whisper torch ffmpeg-python click
# Also requires ffmpeg installed on system
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg

Commands

Transcribe Single File

python scripts/main.py transcribe audio.mp3 --model medium --output transcript.txt
python scripts/main.py transcribe video.mp4 --format srt --output subtitles.srt

Batch Transcription

python scripts/main.py batch ./recordings/ --format txt --output ./transcripts/

Transcribe + Translate

python scripts/main.py translate foreign-audio.mp3 --to en

Extract Timestamps

python scripts/main.py timestamps podcast.mp3 --format json

Examples

Example 1: Podcast to Blog Post

# Transcribe 1-hour podcast
python scripts/main.py transcribe episode-42.mp3 --model medium

# Output: episode-42.txt (full transcript with timestamps)
# Processing time: ~5 min for 1 hour audio on M1 Mac

Example 2: YouTube Subtitles

# Generate SRT for video upload
python scripts/main.py transcribe marketing-video.mp4 --format srt

# Output: marketing-video.srt
# Upload directly to YouTube/Vimeo

Example 3: Batch Process Interview Library

# Transcribe all recordings in folder
python scripts/main.py batch ./customer-interviews/ --model small --format txt

# Output: ./customer-interviews/*.txt (one per audio file)

Model Selection Guide

ModelSpeedAccuracyVRAMBest For
tinyFastest~70%1GBQuick drafts, short clips
baseFast~80%1GBSocial media clips
smallMedium~85%2GBPodcasts, interviews
mediumSlow~90%5GBProfessional transcripts
largeSlowest~95%10GBCritical accuracy needs

Recommendation: Start with small for most marketing content. Use medium for client deliverables.

Output Formats

FormatExtensionUse Case
txt.txtBlog posts, analysis
srt.srtVideo subtitles (YouTube)
vtt.vttWeb video subtitles
json.jsonProgrammatic access
tsv.tsvSpreadsheet analysis

Performance Tips

  1. GPU acceleration - 10x faster with CUDA GPU
  2. Audio extraction - Script auto-extracts audio from video
  3. Chunking - Long files auto-split for memory efficiency
  4. Language detection - Automatic, or specify with --language

Skill Boundaries

What This Skill Does Well

  • Structuring audio production workflows
  • Providing technical guidance
  • Creating quality checklists
  • Suggesting creative approaches

What This Skill Cannot Do

  • Replace audio engineering expertise
  • Make subjective creative decisions
  • Access or edit audio files directly
  • Guarantee commercial success

Related Skills

Skill Metadata

  • Mode: cyborg
category: automation
subcategory: audio-processing
dependencies: [openai-whisper, torch, ffmpeg-python]
difficulty: beginner
time_saved: 10+ hours/week

GitHub репозиторий

guia-matthieu/clawfu-skills
Путь: skills/automation/whisper-transcription
0
ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

Похожие навыки

content-collections

Мета

Этот навык предоставляет проверенную в продакшене настройку для Content Collections — TypeScript-ориентированного инструмента, который преобразует файлы Markdown/MDX в типобезопасные коллекции данных с валидацией Zod. Используйте его при создании блогов, сайтов документации или контентных приложений на Vite + React для обеспечения типобезопасности и автоматической проверки содержимого. Он охватывает всё: от настройки плагина Vite и компиляции MDX до оптимизации развертывания и валидации схем.

Просмотреть навык

polymarket

Мета

Этот навык позволяет разработчикам создавать приложения на платформе прогнозных рынков Polymarket, включая интеграцию с API для торговли и получения рыночных данных. Он также обеспечивает потоковую передачу данных в реальном времени через WebSocket для отслеживания текущих сделок и рыночной активности. Используйте его для реализации торговых стратегий или создания инструментов, обрабатывающих обновления рынка в реальном времени.

Просмотреть навык

creating-opencode-plugins

Мета

Этот навык помогает разработчикам создавать плагины OpenCode, которые подключаются к более чем 25 типам событий, таким как команды, файлы и операции LSP. Он предоставляет структуру плагина, спецификации API событий и шаблоны реализации для модулей на JavaScript/TypeScript. Используйте его, когда вам нужно перехватывать, отслеживать или расширять жизненный цикл ассистента OpenCode AI с помощью пользовательской событийно-ориентированной логики.

Просмотреть навык

sglang

Мета

SGLang — это высокопроизводительный фреймворк для обслуживания больших языковых моделей (LLM), специализирующийся на быстрой структурированной генерации JSON, regex и рабочих процессов агентов с использованием кэширования префиксов RadixAttention. Он обеспечивает значительно более высокую скорость вывода, особенно для задач с повторяющимися префиксами, что делает его идеальным для сложных структурированных результатов и многократных диалогов. Выбирайте SGLang вместо альтернатив, таких как vLLM, когда вам требуется ограниченное декодирование или вы создаете приложения с интенсивным совместным использованием префиксов.

Просмотреть навык