speech-to-text
について
このスキルは、'transcribe'(文字起こし)や 'speech to text'(音声テキスト変換)などのキーワードで起動し、オーディオ/ビデオファイルをテキストに書き起こします。多言語対応の文字起こし、話者識別、キャプション用のタイムスタンプ生成をサポートしています。開発者は、自動検出機能を備えたこのスキルを利用して、メディアファイルから音声コンテンツを抽出することができます。
クイックインストール
Claude Code
推奨npx skills add NoizAI/skills -a claude-code/plugin add https://github.com/NoizAI/skillsgit clone https://github.com/NoizAI/skills.git ~/.claude/skills/speech-to-textこのコマンドをClaude Codeにコピー&ペーストしてスキルをインストールします
ドキュメント
speech-to-text
Transcribe any audio file to text. Supports multilingual auto-detection, timestamps, and speaker labels.
Triggers
- transcribe / transcript / transcription
- speech to text / STT / audio to text
- what does this audio say / convert audio
- 转录 / 语音转文字 / 识别音频
Quick Start
# Transcribe with auto language detection
python3 skills/speech-to-text/scripts/stt.py audio.mp3
# Specify language explicitly
python3 skills/speech-to-text/scripts/stt.py interview.wav --language en
# Save transcript to file
python3 skills/speech-to-text/scripts/stt.py podcast.m4a -o transcript.txt
# Output full JSON (with timestamps and speaker labels)
python3 skills/speech-to-text/scripts/stt.py meeting.wav --json -o result.json
Arguments
| Argument | Default | Description |
|---|---|---|
file | required | Audio file to transcribe (mp3, wav, m4a, ogg, flac, aac, webm). Max 50 MB, max 10 min. |
--language / -l | auto-detect | BCP-47 language code (e.g. en, zh, ja). Omit to auto-detect. |
--output / -o | stdout | Path to save transcript text (or JSON if --json is set). |
--json | off | Output full JSON response with timestamps and speaker labels. |
--api-key | from env/config | Noiz API key (overrides stored key). |
Output Format
Without --json, only the transcript text is printed:
Hello, welcome to today's podcast. We have a special guest joining us...
With --json, the full structured response is printed:
{
"language": "en",
"transcript": "Hello, welcome to today's podcast...",
"duration": 42.5,
"segments": [
{"text": "Hello, welcome to today's podcast.", "start": 0.0, "end": 3.2, "spk": 0},
{"text": "We have a special guest joining us.", "start": 3.5, "end": 6.1, "spk": 0}
]
}
Supported Languages
Common codes: en (English), zh (Chinese), ja (Japanese), ko (Korean), es (Spanish), fr (French), de (German), pt (Portuguese), ru (Russian), ar (Arabic). Omit --language to auto-detect.
Configuration
# Save your API key once
python3 skills/speech-to-text/scripts/stt.py config --set-api-key YOUR_KEY
# Or set via environment variable
export NOIZ_API_KEY=YOUR_KEY
Get your API key at developers.noiz.ai.
Pricing
Billed at $0.0006 per second of audio. A 10-minute file costs ~$0.36. New accounts include 10,000 free TTS characters; STT is billed separately.
Security & data disclosure
- Credential storage: API key is saved to
~/.config/noiz/api_key(permissions0600).NOIZ_API_KEYenv var is also supported. - Network calls: The audio file is uploaded to
https://noiz.ai/v1/speech-to-textfor transcription. No data is sent until you run the command. - File limits: Max 50 MB per file, max 10 minutes (600 seconds) of audio.
Requirements
requestspackage:pip install requests- Get your API key at developers.noiz.ai
GitHub リポジトリ
関連スキル
content-collections
メタこのスキルは、Content Collections(Markdown/MDXファイルを型安全なデータコレクションに変換するTypeScriptファーストのツール)の本番環境でテストされた設定を提供します。Zodバリデーションによる型安全性を実現し、ブログ、ドキュメントサイト、コンテンツ重視のVite + Reactアプリケーション構築時にご利用ください。Viteプラグインの設定、MDXコンパイルから、デプロイ最適化、スキーマバリデーションまで、すべてを網羅しています。
polymarket
メタこのスキルは、開発者がPolymarket予測市場プラットフォームを活用したアプリケーション構築を可能にします。API統合による取引や市場データの取得に加え、WebSocketを介したリアルタイムデータストリーミングにより、ライブ取引や市場活動を監視できます。取引戦略の実装や、ライブ市場更新を処理するツールの作成にご利用ください。
creating-opencode-plugins
メタこのスキルは、開発者がコマンド、ファイル、LSP操作など25種類以上のイベントタイプにフックするOpenCodeプラグインを作成することを支援します。JavaScript/TypeScriptモジュール向けに、プラグイン構造、イベントAPI仕様、および実装パターンを提供します。カスタムイベント駆動ロジックでOpenCode AIアシスタントのライフサイクルをインターセプト、監視、または拡張する必要がある場合にご利用ください。
sglang
メタSGLangは、高性能なLLMサービングフレームワークであり、RadixAttentionプレフィックスキャッシュを活用したJSON、正規表現、エージェントワークフロー向けの高速で構造化された生成を特長とします。特にプレフィックスが繰り返されるタスクにおいて、大幅に高速な推論を実現し、複雑な構造化出力やマルチターン対話に最適です。制約付きデコードが必要な場合や、広範なプレフィックス共有を伴うアプリケーションを構築する場合は、vLLMなどの代替案ではなくSGLangを選択してください。
