スキル一覧に戻る

whisper-transcription

guia-matthieu
更新日 2 days ago
5 閲覧
111
20
111
GitHubで表示
メタaidesign

について

このスキルは、OpenAIのWhisperモデルを使用して音声・動画ファイルをテキストに書き起こします。字幕の生成、ポッドキャストのテキスト化、検索可能な音声アーカイブの構築を必要とする開発者に最適です。主な機能には、インタビューからの引用文の抽出や、マルチメディアコンテンツを文章形式に再利用することが含まれます。

クイックインストール

Claude Code

推奨
メイン
npx skills add guia-matthieu/clawfu-skills -a claude-code
プラグインコマンド代替
/plugin add https://github.com/guia-matthieu/clawfu-skills
Git クローン代替
git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/whisper-transcription

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします

ドキュメント

Whisper Transcription

Transcribe any audio or video to text using OpenAI's Whisper model - the same technology powering ChatGPT voice features.

When to Use This Skill

  • Podcast repurposing - Convert episodes to blog posts, show notes, social snippets
  • Video subtitles - Generate SRT/VTT files for YouTube, social media
  • Interview extraction - Pull quotes and insights from recorded calls
  • Content audit - Make audio/video libraries searchable
  • Translation - Transcribe and translate foreign language content

What Claude Does vs What You Decide

Claude DoesYou Decide
Structures production workflowFinal creative direction
Suggests technical approachesEquipment and tool choices
Creates templates and checklistsQuality standards
Identifies best practicesBrand/voice decisions
Generates script outlinesFinal script approval

Dependencies

pip install openai-whisper torch ffmpeg-python click
# Also requires ffmpeg installed on system
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg

Commands

Transcribe Single File

python scripts/main.py transcribe audio.mp3 --model medium --output transcript.txt
python scripts/main.py transcribe video.mp4 --format srt --output subtitles.srt

Batch Transcription

python scripts/main.py batch ./recordings/ --format txt --output ./transcripts/

Transcribe + Translate

python scripts/main.py translate foreign-audio.mp3 --to en

Extract Timestamps

python scripts/main.py timestamps podcast.mp3 --format json

Examples

Example 1: Podcast to Blog Post

# Transcribe 1-hour podcast
python scripts/main.py transcribe episode-42.mp3 --model medium

# Output: episode-42.txt (full transcript with timestamps)
# Processing time: ~5 min for 1 hour audio on M1 Mac

Example 2: YouTube Subtitles

# Generate SRT for video upload
python scripts/main.py transcribe marketing-video.mp4 --format srt

# Output: marketing-video.srt
# Upload directly to YouTube/Vimeo

Example 3: Batch Process Interview Library

# Transcribe all recordings in folder
python scripts/main.py batch ./customer-interviews/ --model small --format txt

# Output: ./customer-interviews/*.txt (one per audio file)

Model Selection Guide

ModelSpeedAccuracyVRAMBest For
tinyFastest~70%1GBQuick drafts, short clips
baseFast~80%1GBSocial media clips
smallMedium~85%2GBPodcasts, interviews
mediumSlow~90%5GBProfessional transcripts
largeSlowest~95%10GBCritical accuracy needs

Recommendation: Start with small for most marketing content. Use medium for client deliverables.

Output Formats

FormatExtensionUse Case
txt.txtBlog posts, analysis
srt.srtVideo subtitles (YouTube)
vtt.vttWeb video subtitles
json.jsonProgrammatic access
tsv.tsvSpreadsheet analysis

Performance Tips

  1. GPU acceleration - 10x faster with CUDA GPU
  2. Audio extraction - Script auto-extracts audio from video
  3. Chunking - Long files auto-split for memory efficiency
  4. Language detection - Automatic, or specify with --language

Skill Boundaries

What This Skill Does Well

  • Structuring audio production workflows
  • Providing technical guidance
  • Creating quality checklists
  • Suggesting creative approaches

What This Skill Cannot Do

  • Replace audio engineering expertise
  • Make subjective creative decisions
  • Access or edit audio files directly
  • Guarantee commercial success

Related Skills

Skill Metadata

  • Mode: cyborg
category: automation
subcategory: audio-processing
dependencies: [openai-whisper, torch, ffmpeg-python]
difficulty: beginner
time_saved: 10+ hours/week

GitHub リポジトリ

guia-matthieu/clawfu-skills
パス: skills/automation/whisper-transcription
0
ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

関連スキル

content-collections

メタ

このスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。

スキルを見る

polymarket

メタ

このスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。

スキルを見る

creating-opencode-plugins

メタ

このスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。

スキルを見る

sglang

メタ

SGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。

スキルを見る