返回技能列表

ai-voice-design

guia-matthieu
更新于 2 days ago
7 次查看
111
20
111
在 GitHub 上查看
设计aidesign

关于

This skill enables AI voice generation for videos using ElevenLabs or Qwen3-TTS, featuring voice cloning, description-based voice design, and lip-sync synchronization. Developers can use it to create brand voices, clone existing voices with permission, design original voices from descriptions, and manage multiple characters in videos. It's ideal for video projects requiring professional voiceovers with precise audio-visual alignment.

快速安装

Claude Code

推荐
主要方式
npx skills add guia-matthieu/clawfu-skills -a claude-code
插件命令备选方式
/plugin add https://github.com/guia-matthieu/clawfu-skills
Git 克隆备选方式
git clone https://github.com/guia-matthieu/clawfu-skills.git ~/.claude/skills/ai-voice-design

在 Claude Code 中复制并粘贴此命令以安装该技能

技能文档

AI Voice Design

Concevez et générez des voix IA pour vos vidéos en utilisant ElevenLabs ou Qwen3-TTS, avec clonage vocal, design par description, et synchronisation lip-sync.

When to Use This Skill

  • Créer une voix de marque - Définir le ton vocal pour une campagne
  • Cloner une voix existante - Reproduire une voix avec autorisation
  • Designer une voix originale - Créer une voix à partir d'une description
  • Multi-personnages - Gérer plusieurs voix dans une même vidéo
  • Lip-sync vidéo IA - Synchroniser voix et mouvements de lèvres
  • Localisation - Adapter une voix en plusieurs langues

Methodology Foundation

Source: ElevenLabs Documentation + Qwen3-TTS (Alibaba) + PJ Ace workflow

Core Principle: "La voix est 50% de l'impact d'une vidéo. ElevenLabs offre la qualité premium, Qwen3-TTS offre la flexibilité open-source. Le choix dépend du budget et du contrôle souhaité."

Why This Matters: Une voix mal choisie ou mal générée casse l'illusion d'une vidéo IA. Le bon matching voix/personnage et une qualité audio professionnelle font la différence entre "AI slop" et contenu crédible.

What Claude Does vs What You Decide

Claude DoesYou Decide
Structures production workflowFinal creative direction
Suggests technical approachesEquipment and tool choices
Creates templates and checklistsQuality standards
Identifies best practicesBrand/voice decisions
Generates script outlinesFinal script approval

What This Skill Does

  1. Compare les solutions TTS - ElevenLabs vs Qwen3-TTS
  2. Guide le clonage vocal - Process et requirements
  3. Structure le voice design - Description textuelle de voix
  4. Gère le multi-voix - Attribution et cohérence
  5. Prépare le lip-sync - Intégration avec Kling/Veo

How to Use

Designer une voix pour une pub

J'ai besoin d'une voix pour ma pub [produit]. Le ton doit être [description]. Aide-moi à la designer.

Cloner une voix

Je veux cloner cette voix [description/échantillon]. Guide-moi à travers le process avec [ElevenLabs/Qwen3-TTS].

Gérer plusieurs personnages

J'ai 3 personnages dans ma vidéo: [descriptions]. Crée le casting vocal.

Instructions

Step 1: Choisir la solution TTS

## Comparatif ElevenLabs vs Qwen3-TTS

| Critère | ElevenLabs | Qwen3-TTS |
|---------|------------|-----------|
| **Prix** | $5-$330/mois | Gratuit (open-source) |
| **Qualité** | Excellente | Excellente |
| **Voice cloning** | 1-5 min audio | 3 sec audio |
| **Langues** | 29+ | 10 (EN, FR, DE, ES, IT, PT, RU, ZH, JP, KO) |
| **Latence** | ~200ms | 97ms (streaming) |
| **Self-hosted** | Non | Oui |
| **Voice design** | VoiceLab | Description textuelle |
| **API** | Cloud | Local ou cloud |

### Arbre de décision

**Q1: Budget disponible?**
- $0 (gratuit) → Qwen3-TTS
- $5-$100/mois → ElevenLabs Starter/Creator
- $100+/mois → ElevenLabs Pro

**Q2: Besoin de self-hosting?**
- Oui (données sensibles) → Qwen3-TTS
- Non → ElevenLabs ou Qwen3-TTS

**Q3: Langue requise parmi FR, EN, DE, ES, IT, PT, RU, ZH, JP, KO?**
- Oui → Les deux fonctionnent
- Non (autre langue) → ElevenLabs

**Q4: Latence critique (real-time)?**
- Oui → Qwen3-TTS (97ms)
- Non → Les deux

Step 2: Voice Design par description

## Template de Description de Voix

### Caractéristiques de base
**Genre:** [ ] Masculin [ ] Féminin [ ] Non-binaire
**Âge apparent:** [20s / 30s / 40s / 50s / 60s+]
**Registre:** [ ] Grave [ ] Medium [ ] Aigu

### Qualités vocales
**Texture:**
[ ] Lisse/Veloutée [ ] Rauque/Gravelly
[ ] Nasale [ ] Claire [ ] Résonante

**Énergie:**
[ ] Calme/Posée [ ] Dynamique [ ] Intense
[ ] Chaleureuse [ ] Froide/Distante

**Rythme:**
[ ] Lent/Délibéré [ ] Modéré [ ] Rapide
[ ] Varié (storytelling)

### Accent/Origine
**Accent:** [Ex: Français neutre, British RP, Southern US, etc.]
**Particularités:** [Ex: légèrement rauque le matin, sourire dans la voix]

### Contexte d'utilisation
**Marque/Produit:** ________________________________
**Ton de la campagne:** ________________________________
**Personnage (si fiction):** ________________________________

### Exemples de référence (optionnel)
**Voix similaire à:** [Célébrité, personnage, pub connue]
**Éviter:** [Ce qu'on ne veut pas]

Exemple de description complète:

## Voice Brief: Pub NeuroBoost

**Profil:**
Homme, 40s, registre grave-medium

**Qualités:**
- Texture résonante et autoritaire mais pas intimidante
- Énergie posée, confiante, légèrement inspirante
- Rythme délibéré avec pauses stratégiques

**Accent:**
Français international (pas d'accent régional marqué)
Diction parfaite, articulation claire

**Références:**
- Similaire à: Morgan Freeman mais version française
- Éviter: Ton commercial agressif, urgence artificielle

**Notes:**
Cette voix doit incarner l'expertise et la confiance.
Le spectateur doit sentir qu'il reçoit un conseil d'un
mentor plutôt qu'un pitch de vendeur.

Step 3: Clonage vocal

ElevenLabs

## Process de clonage ElevenLabs

### Instant Clone (1-5 min audio)
**Qualité:** Bonne (80% fidélité)
**Usage:** Tests, itération rapide

1. Préparer audio source:
   - 1-5 minutes de parole claire
   - Pas de musique de fond
   - Qualité minimum: 128kbps
   - Formats: MP3, WAV, M4A

2. Dans ElevenLabs:
   - Voice Lab → Add Voice → Instant Clone
   - Upload audio
   - Nommer la voix
   - Tester avec phrase sample

### Professional Clone (30+ min audio)
**Qualité:** Excellente (95%+ fidélité)
**Usage:** Production commerciale

1. Préparer corpus audio:
   - 30-60 minutes idéalement
   - Variété d'émotions et tons
   - Phrases complètes, pas de mots isolés
   - Studio quality (256kbps+, pas de bruit)

2. Soumettre pour training
   - Délai: 24-48h
   - Coût: Inclus dans plan Pro+

### Paramètres de génération
- **Stability:** 50-70% (naturel) / 80%+ (consistant)
- **Clarity:** 75%+ recommandé
- **Style:** 0-100% selon expressivité souhaitée

Qwen3-TTS

## Process de clonage Qwen3-TTS

### Zero-shot Clone (3 sec audio)
**Qualité:** Très bonne
**Usage:** Toute production

1. Préparer référence:
   - 3-10 secondes de parole claire
   - Pas de bruit de fond
   - Émotion neutre ou représentative

2. API Python:
```python
from qwen3_tts import Qwen3TTS

tts = Qwen3TTS()

# Cloner depuis référence
voice = tts.clone_voice(
    reference_audio="reference.wav",
    voice_name="my_voice"
)

# Générer avec la voix clonée
audio = tts.generate(
    text="Texte à synthétiser",
    voice=voice,
    language="fr"
)
audio.save("output.wav")

Voice Design par texte

# Créer une voix sans référence audio
voice = tts.design_voice(
    description="A warm, confident male voice in his 40s, \
    with a slight French accent, speaking slowly and \
    deliberately with gravitas."
)

audio = tts.generate(
    text="Votre texte ici",
    voice=voice
)

Paramètres avancés

  • emotion: "neutral", "happy", "sad", "angry", "surprise"
  • speed: 0.5 (lent) à 2.0 (rapide)
  • pitch: -10 à +10 (demi-tons)

---

### Step 4: Multi-personnages

Casting Vocal Multi-personnages

Template de casting

PersonnageDescriptionVoixSource
[Nom][Description physique/personnalité][Specs vocales][Clone/Design/Stock]

Exemple: Pub avec 3 personnages

PersonnageDescriptionVoixSource
CEO Emma35 ans, confiante, leaderFemme, medium, autoritaire-warmDesign: "Confident female executive..."
Dev Tom28 ans, geek enthousiasteHomme, medium-aigu, rapideStock: "Young professional male"
Client Marc50 ans, sceptique puis convaincuHomme, grave, hésitant→assuréDesign: "Skeptical older businessman..."

Règles de différenciation

  • Registres variés: Grave, Medium, Aigu
  • Rythmes différents: Lent vs Rapide
  • Accents distincts: Si approprié au contexte
  • Énergies contrastées: Calme vs Dynamique

Workflow multi-voix

  1. Générer chaque réplique séparément
  2. Nommer fichiers: P1_Emma_Line01.wav
  3. Assembler dans timeline audio
  4. Vérifier cohérence de volume (normaliser à -6dB)

---

### Step 5: Lip-sync et intégration vidéo

Intégration Voix + Vidéo IA

Option A: Veo 3.1 (Audio natif)

La voix est générée par Veo avec la vidéo.

Prompt incluant audio:
"[Scene description]. The character says:
'[Dialogue exact]'. Voice: confident male, 30s,
warm tone. Ambient: office sounds."

Limitation: Moins de contrôle sur la voix exacte.

Option B: Kling 2.6 Motion Control

Lip-sync depuis vidéo "driving".

  1. Enregistrer vous-même le dialogue
  2. Utiliser Kling avec driving video
  3. Le lip-sync suit votre performance
  4. Remplacer audio par voix IA en post
Workflow:
You → Record driving video with dialogue
Kling → Transfer lips to AI character
Post → Replace audio with ElevenLabs/Qwen voice

Option C: Génération séparée + Post-sync

Pour contrôle maximum.

  1. Générer vidéo sans audio (Runway, Pika)
  2. Générer voix séparément
  3. Synchroniser en post-production
  4. Ajuster timing manuellement si besoin

Outils de sync:

  • DaVinci Resolve (gratuit)
  • Adobe Premiere
  • D-ID (sync automatique)

Checklist Lip-sync

  • Timing voix correspond au mouvement des lèvres
  • Pauses naturelles alignées
  • Volume équilibré avec ambiance
  • Pas de décalage visible (max 2-3 frames)

---

### Step 6: Export et spécifications audio

Spécifications Audio Finales

Format de sortie

  • Codec: AAC ou WAV
  • Sample rate: 48kHz (standard vidéo)
  • Bit depth: 24-bit (WAV) ou 256kbps (AAC)
  • Channels: Stereo ou Mono selon usage

Niveaux recommandés

  • Voiceover: -6dB à -3dB peak
  • Dialogue: -12dB à -6dB
  • Ambiance: -18dB à -12dB
  • Musique: -12dB à -9dB (sous voix)

Mastering basique

  1. Normaliser tous les clips voix à -6dB
  2. Appliquer compression légère (ratio 2:1)
  3. EQ: couper sous 80Hz, boost léger 2-4kHz (clarté)
  4. Limiter à -1dB pour éviter clipping

Deliverables

📁 Audio_[Project]/
├── voiceover/
│   ├── VO_final_master.wav
│   └── VO_stems/
│       ├── P1_lines.wav
│       ├── P2_lines.wav
│       └── ...
├── sfx/
│   └── [sound effects]
├── music/
│   └── [background music]
└── mix/
    └── final_mix.wav

## Examples

### Example 1: Voice design pour pub premium

**Context**: Marque de montres de luxe, pub cinématique 30s

**Input**:
> J'ai une pub pour une marque de montres haut de gamme. Style très premium, inspiré des pubs Omega ou Rolex. Je veux une voix qui incarne l'excellence et l'héritage.

**Output**:

## Voice Brief: Montres Heritage Collection

### Profil cible

Genre: Masculin Âge: 55-65 ans Registre: Grave, profond


### Caractéristiques détaillées

Texture: Résonante, veloutée, avec légère patine (comme un bois noble ou un cuir vintage)

Énergie: Posée, contemplative, jamais pressée Chaque mot est choisi, chaque pause est intention

Rythme: Très lent, délibéré 4-5 mots par respiration Pauses de 1-2 secondes entre phrases

Diction: Parfaite, aristocratique sans être snob Consonnes précises, voyelles riches


### Prompt ElevenLabs (Voice Design)

Create a distinguished male voice in his 60s. Deep, resonant baritone with natural gravitas. Speaking style: slow, deliberate, contemplative. British Received Pronunciation with slight warmth. Texture like aged whiskey - smooth with depth. The voice of someone who has seen much and speaks only when it matters.


### Prompt Qwen3-TTS
```python
voice = tts.design_voice(
    description="""
    Distinguished older gentleman, 60s, deep baritone.
    British accent, RP. Speaking very slowly and
    deliberately, with natural authority and warmth.
    Voice texture is rich and resonant, like aged oak.
    Contemplative, never rushed. Each word carries weight.
    Think: nature documentary narrator meets luxury brand.
    """
)

Script avec indications

[PAUSE 2s]

"Time..." [PAUSE 1.5s]

"...is not measured." [PAUSE 1s]

"It is crafted." [PAUSE 2s]

"Heritage Collection." [PAUSE 1s]

"Since 1892."

Paramètres techniques

  • Stability: 85% (très consistant pour luxury)
  • Speed: 0.7x (plus lent)
  • Pas de musique sous la voix (voix seule, puis musique)

Why this works: Pour le luxe, less is more. Une voix grave, lente et posée communique la confiance et l'intemporalité. Les pauses créent la tension et la valeur perçue.


Example 2: Multi-personnages comédie

Context: Pub SaaS décalée style sitcom avec 3 personnages

Input:

J'ai une pub style The Office avec 3 personnages: le boss incompétent, l'employée exaspérée, et le stagiaire trop enthousiaste. Crée le casting vocal.

Output:

Casting Vocal: "Office Chaos" Pub

Personnage 1: Michel (Le Boss)

Profil:
- Homme, 50 ans
- Confiant mais incompétent
- Parle trop fort et trop vite
- S'interrompt lui-même

Voix:
- Medium-aigu (pas grave malgré l'autorité voulue)
- Nasale légèrement
- Volume variable (starts loud, gets louder)
- Phrases inachevées

Prompt ElevenLabs:
"Middle-aged man who thinks he's charismatic but isn't.
Slightly nasal voice, medium-high pitch. Speaks too
loudly and too fast, often interrupting himself.
French accent, corporate buzzwords enthusiast.
Michael Scott energy."

Personnage 2: Sophie (L'Exaspérée)

Profil:
- Femme, 35 ans
- Compétente, fatiguée
- Sarcasme subtil
- Soupirs audibles

Voix:
- Medium, légèrement grave pour femme
- Sèche, précise
- Monotone quand exaspérée
- Soupirs comme ponctuation

Prompt Qwen3-TTS:
"Professional woman in her 30s, tired of everything.
Dry, slightly deadpan delivery. French, neutral accent.
Subtle sarcasm in every line. Occasional audible sighs.
The straight man in every comedy duo."

Personnage 3: Théo (Le Stagiaire)

Profil:
- Homme, 22 ans
- Trop enthousiaste
- Voix qui monte en fin de phrase
- Acquiesce à tout

Voix:
- Medium-aigu
- Énergique, rapide
- Upspeak (fin de phrase montante)
- Ponctué de "super!", "génial!"

Prompt:
"Young man, early 20s, overly enthusiastic intern.
High-medium pitch, speaks quickly with upward
inflection at end of sentences. French, sounds
like he just discovered coffee. Every statement
sounds like an excited question."

Exemple de dialogue

MICHEL: (loud) "Bon, l'équipe! J'ai une GRANDE nouvelle—
        enfin, moyenne—non, grande!"

SOPHIE: (flat) "[soupir] ...C'est la réunion quotidienne."

THÉO: (excited) "Oh WOW! Une grande nouvelle? C'est GÉNIAL!"

MICHEL: "Théo comprend, LUI. Donc, on va—
        comment ça s'appelle—pivoter!"

SOPHIE: "...On a pivoté hier."

THÉO: "RE-pivoter! J'ADORE re-pivoter!"

Production notes

  • Générer chaque personnage séparément
  • Michel: boost 3-4kHz (plus "présent")
  • Sophie: légère réverb room (distance émotionnelle)
  • Théo: compression pour contenir les pics

Why this works: Les trois voix sont immédiatement distinctes par registre, rythme et énergie. Le contraste crée la comédie - le chaos de Michel, le calme de Sophie, l'excès de Théo.


Checklists & Templates

Checklist Voice Design

## Validation Voice Design

### Brief complet
- [ ] Genre et âge définis
- [ ] Registre spécifié (grave/medium/aigu)
- [ ] Texture décrite (lisse/rauque/etc)
- [ ] Énergie et rythme indiqués
- [ ] Accent précisé
- [ ] Références incluses

### Génération
- [ ] Prompt testé avec phrase sample
- [ ] Qualité audio vérifiée (pas de glitches)
- [ ] Volume normalisé
- [ ] Cohérence avec brand voice

### Multi-personnages
- [ ] Voix suffisamment distinctes
- [ ] Registres variés
- [ ] Énergies contrastées
- [ ] Test d'écoute ensemble

Template Voice Brief

## Voice Brief: [Projet]

### Identité
**Projet/Marque:** ________________________________
**Type de contenu:** [ ] Pub [ ] Explainer [ ] Narration [ ] Dialogue
**Durée totale:** __________ secondes

### Profil vocal
**Genre:** [ ] M [ ] F [ ] Non-binaire
**Âge:** _______ ans
**Registre:** [ ] Grave [ ] Medium [ ] Aigu

### Caractéristiques
**Texture:** ________________________________
**Énergie:** ________________________________
**Rythme:** ________________________________
**Accent:** ________________________________

### Contexte émotionnel
**L'auditeur doit ressentir:** ________________________________
**Éviter:** ________________________________

### Référence
**Similaire à:** ________________________________

### Solution technique
[ ] ElevenLabs (budget: $_____/mois)
[ ] Qwen3-TTS (self-hosted)
[ ] Clone d'une voix existante

### Script

[Coller le script avec indications de pause]


Coûts comparatifs

## Budget TTS

### ElevenLabs
| Plan | Prix/mois | Caractères | Équivalent |
|------|-----------|------------|------------|
| Free | $0 | 10k | ~2 min |
| Starter | $5 | 30k | ~6 min |
| Creator | $22 | 100k | ~20 min |
| Pro | $99 | 500k | ~100 min |

### Qwen3-TTS (Self-hosted)
| Composant | Coût |
|-----------|------|
| GPU (RTX 3090) | ~$800 one-time |
| Cloud GPU (A10) | ~$1/heure |
| Hébergement | Variable |
| Génération | Illimité |

### Recommandation par volume
- < 5 min/mois → ElevenLabs Free + Qwen3-TTS
- 5-20 min/mois → ElevenLabs Creator ($22)
- 20-100 min/mois → ElevenLabs Pro ($99)
- > 100 min/mois → Qwen3-TTS self-hosted

Skill Boundaries

What This Skill Does Well

  • Structuring audio production workflows
  • Providing technical guidance
  • Creating quality checklists
  • Suggesting creative approaches

What This Skill Cannot Do

  • Replace audio engineering expertise
  • Make subjective creative decisions
  • Access or edit audio files directly
  • Guarantee commercial success

References

Related Skills


Skill Metadata

  • Mode: cyborg
name: ai-voice-design
category: video
subcategory: production
version: 1.0
author: MKTG Skills
source_expert: ElevenLabs + Qwen3-TTS + PJ Ace
source_work: TTS Documentation
difficulty: intermediate
estimated_value: $500-2000 (voice design + production)
tags: [video, ai, voice, tts, elevenlabs, qwen, cloning, audio]
created: 2026-01-25
updated: 2026-01-25

GitHub 仓库

guia-matthieu/clawfu-skills
路径: skills/video/ai-voice-design
0
ai-skillsanthropicclaude-codeclaude-skillsmarketingmcp-server

相关推荐技能

executing-plans

设计

该Skill用于当开发者提供完整实施计划时,以受控批次方式执行代码实现。它会先审阅计划并提出疑问,然后分批次执行任务(默认每批3个任务),并在批次间暂停等待审查。关键特性包括分批次执行、内置检查点和架构师审查机制,确保复杂系统实现的可控性。

查看技能

requesting-code-review

设计

该Skill可在完成任务、实现主要功能或合并代码前自动调度代码审查子代理,确保实现符合需求和计划。它支持通过指定git SHA范围进行精准的代码变更审查,帮助开发者在关键节点及时发现潜在问题。核心原则是"早审查、勤审查",适用于开发流程的各个关键阶段。

查看技能

connect-mcp-server

设计

这个Skill指导开发者如何将MCP服务器连接到Claude Code,支持HTTP、stdio和SSE三种传输协议。它涵盖了从安装配置到认证安全的完整流程,适用于集成GitHub、Notion、数据库等外部服务。当开发者需要添加集成、配置外部工具或提及MCP相关功能时,这个Skill能提供实用的操作指南。

查看技能

web-cli-teleport

设计

该Skill帮助开发者根据任务特性选择Claude Code的Web或CLI界面,并指导如何在两种环境间无缝迁移会话。它能分析任务复杂度、迭代需求等要素,推荐最优工作界面和工作流。关键特性包括会话状态管理、环境切换指导和上下文优化建议。

查看技能