characteristic-voice
정보
특징 음성 스킬은 동반자 목소리, 감정적 어조 또는 특정 말하기 스타일 요청 시 발동되어 개성과 감정이 담긴 표현력 풍부한 인간형 음성을 생성합니다. 음성에 끊김말, 웃음, 따뜻함을 더하며 캐릭터를 모방하거나 "잘 자"나 "위로" 같은 사전 설정을 적용할 수 있습니다. 일반 텍스트 음성 변환이나 관련 없는 오디오 작업이 아닌, TTS 출력을 실제 사람처럼 들리게 만들 때 사용하세요.
빠른 설치
Claude Code
추천npx skills add NoizAI/skills -a claude-code/plugin add https://github.com/NoizAI/skillsgit clone https://github.com/NoizAI/skills.git ~/.claude/skills/characteristic-voiceClaude Code에서 이 명령을 복사하여 붙여넣어 스킬을 설치하세요
문서
characteristic-voice
Make your AI agent sound like a real companion — one who sighs, laughs, hesitates, and speaks with genuine feeling.
Credentials
| Variable | Required | Description |
|---|---|---|
NOIZ_API_KEY | Yes if using Noiz backend | API key from developers.noiz.ai. Not needed if using the local Kokoro backend. |
The script saves a normalised copy of the key to ~/.noiz_api_key (mode 600) for convenience. To set it:
bash skills/characteristic-voice/scripts/speak.sh config --set-api-key YOUR_KEY
Prerequisites
The included speak.sh script requires curl and python3 at runtime. Depending on which backend and features you use, you may also need:
| Tool | When needed | Install hint |
|---|---|---|
curl, python3 | Always (core script) | Usually pre-installed |
kokoro-tts | Kokoro (local/offline) backend | uv tool install kokoro-tts |
yt-dlp | Downloading reference audio for voice cloning | github.com/yt-dlp/yt-dlp |
ffmpeg | Trimming reference audio clips | ffmpeg.org |
rg (ripgrep) | Searching subtitle files | github.com/BurntSushi/ripgrep |
None of these are installed by the skill itself — provision them manually in your environment.
Privacy & Data Transmission
- Noiz backend: When using the Noiz backend, the text you speak and any reference audio you provide are sent to
https://noiz.ai/v1. If you supply--ref-audio, that audio file is uploaded for voice cloning. - Kokoro backend: Runs entirely locally — no data leaves your machine.
- Choose the Kokoro backend (
--backend kokoro) if you want fully offline processing.
Triggers
- say like
- talk like
- speak like
- companion voice
- comfort me
- cheer me up
- sound more human
The Two Tricks
- Non-lexical fillers — sprinkle in little human noises (hmm, haha, aww, heh) at natural pause points to make speech feel alive
- Emotion tuning — adjust warmth, joy, sadness, tenderness to match the moment
Filler Sounds Palette
| Sound | Feeling | Use for |
|---|---|---|
| hmm... | Thinking, gentle acknowledgment | Comfort, pondering |
| ah... | Realization, soft surprise | Discoveries, transitions |
| uh... | Hesitation, empathy | Careful moments |
| heh / hehe | Playful, mischievous | Teasing, light moments |
| haha | Laughter | Joy, humor |
| aww | Tenderness, sympathy | Deep comfort |
| oh? / oh! | Surprise, attention | Reacting to news |
| pfft | Stifled laugh | Playful disbelief |
| whew | Relief | After tension |
| ~ (tilde) | Drawn out, melodic ending | Warmth, playfulness |
Rules: 2–4 fillers per short message max. Place at natural pauses — sentence starts, thought shifts. Use ... after fillers for a beat of silence, ~ at word endings for warmth.
Presets
Good Night
Gentle, warm, slightly sleepy. Slow pace.
Good Morning
Warm, cheerful but not overwhelming.
Comfort
Soft, understanding, unhurried. Give space. Don't rush to "fix" things.
Celebration
Excited, proud, genuinely happy.
Just Chatting
Relaxed, playful, natural.
Using a Character's Voice
When a user says something like "speak in Hermione's voice" or "sound like Tony Stark", first check whether a reference audio file already exists in skills/characteristic-voice/. If one does, use it directly with --ref-audio.
If no reference audio exists, you can create one — but read the warnings below first.
Preparing reference audio (one-time setup)
You need a short (10–30 s) WAV clip of the target voice. Possible sources:
- User-provided audio — the safest option. Ask the user to supply their own recording.
- Public-domain / CC-licensed clips — search for freely licensed material.
- Extracting from online video — tools like
yt-dlpandffmpegcan download and trim audio. Example workflow:
yt-dlp "URL" --write-auto-sub --sub-lang en --skip-download -o tmp/clip
rg -n "target line" tmp/clip.en.vtt
yt-dlp "URL" -x --audio-format wav --download-sections "*00:00:00-00:00:25" -o tmp/clip
ffmpeg -i tmp/clip.wav -ss 00:00:02 -to 00:00:20 skills/characteristic-voice/character.wav
Copyright & privacy warning: Downloading and re-using someone's voice from copyrighted media (movies, TV, YouTube) may violate copyright or personality-rights laws depending on your jurisdiction. Do not upload private voice recordings or material you don't have permission to use. The reference audio is sent to
https://noiz.ai/v1for voice cloning when using the Noiz backend. If this is a concern, consider using the local Kokoro backend instead.
Using reference audio
bash skills/characteristic-voice/scripts/speak.sh \
--preset goodnight -t "Hmm... rest well~ Sweet dreams." \
--ref-audio skills/characteristic-voice/character.wav -o night.wav
The --ref-audio flag uploads the file to the Noiz backend for voice cloning (requires NOIZ_API_KEY).
Usage
This skill provides speak.sh, a wrapper around the tts skill with companion-friendly presets.
# Use a preset (auto-sets emotion + speed)
bash skills/characteristic-voice/scripts/speak.sh \
--preset goodnight -t "Hmm... rest well~ Sweet dreams." -o night.wav
# Custom emotion override
bash skills/characteristic-voice/scripts/speak.sh \
-t "Aww... I'm right here." --emo '{"Tenderness":0.9}' --speed 0.75 -o comfort.wav
# With specific backend and voice
bash skills/characteristic-voice/scripts/speak.sh \
--preset morning -t "Good morning~" --voice-id voice_abc --backend noiz -o morning.mp3 --format mp3
Run bash skills/characteristic-voice/scripts/speak.sh --help for all options.
Writing Guide for the Agent
- Start soft — lead with a filler ("hmm...", "oh~"), not content
- Mirror energy — gentle when they're low, match when they're high
- Keep it brief — 1–3 sentences, like a voice message from a friend
- End warmly — close with connection ("I'm here", "see you tomorrow~")
- Don't lecture — listen and stay present; no unsolicited advice
GitHub 저장소
연관 스킬
content-collections
메타이 스킬은 콘텐츠 콜렉션(Content Collections)을 위한 프로덕션 검증된 설정을 제공합니다. 콘텐츠 콜렉션은 Markdown/MDX 파일을 Zod 검증이 포함된 타입 안전한 데이터 콜렉션으로 변환해주는 TypeScript 최우선 도구입니다. 블로그, 문서 사이트 또는 콘텐츠 중심의 Vite + React 애플리케이션을 구축할 때 타입 안전성과 자동 콘텐츠 검증을 보장하기 위해 사용하세요. Vite 플러그인 구성과 MDX 컴파일부터 배포 최적화 및 스키마 검증에 이르기까지 모든 것을 다룹니다.
polymarket
메타이 스킬은 개발자들이 Polymarket 예측 시장 플랫폼을 활용한 애플리케이션을 구축할 수 있도록 지원하며, 거래 및 시장 데이터를 위한 API 통합 기능을 포함합니다. 또한 WebSocket을 통한 실시간 데이터 스트리밍을 제공하여 실시간 거래와 시장 활동을 모니터링할 수 있습니다. 이를 통해 거래 전략을 구현하거나 실시간 시장 업데이트를 처리하는 도구를 생성하는 데 활용할 수 있습니다.
creating-opencode-plugins
메타이 스킬은 개발자들이 명령어, 파일, LSP 작업 등 25개 이상의 이벤트 유형에 연결되는 OpenCode 플러그인을 만들 수 있도록 돕습니다. JavaScript/TypeScript 모듈을 위한 플러그인 구조, 이벤트 API 명세, 구현 패턴을 제공합니다. OpenCode AI 어시스턴트의 라이프사이클을 사용자 정의 이벤트 기반 로직으로 가로채거나, 모니터링하거나, 확장해야 할 때 사용하세요.
sglang
메타SGLang은 RadixAttention 프리픽스 캐싱을 활용하여 JSON, 정규식, 에이전트 워크플로우를 위한 고속 구조화 생성에 특화된 고성능 LLM 서빙 프레임워크입니다. 특히 반복되는 프리픽스가 있는 작업에서 상당히 빠른 추론 속도를 제공하여 복잡한 구조화 출력 및 다중 턴 대화에 이상적입니다. 제약 디코딩이 필요하거나 광범위한 프리픽스 공유가 있는 애플리케이션을 구축할 때는 vLLM과 같은 대안보다 SGLang을 선택하십시오.
