MCP HubMCP Hub
Вернуться к навыкам

characteristic-voice

NoizAI
Обновлено Yesterday
4 просмотров
502
74
502
Посмотреть на GitHub
Метаaidesign

О программе

Навык characteristic-voice создает выразительную, естественную речь с индивидуальностью и эмоциями, активируясь при запросах на голоса компаньонов, эмоциональные оттенки или определенные стили речи. Он добавляет междометия, смех и теплоту, а также может имитировать персонажей или применять пресеты, такие как "спокойной ночи" или "утешение". Используйте его, чтобы синтезированная речь звучала как живой человек, но не для обычного преобразования текста в речь или несвязанных аудиозадач.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add NoizAI/skills -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/NoizAI/skills
Git клонированиеАльтернативный
git clone https://github.com/NoizAI/skills.git ~/.claude/skills/characteristic-voice

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

characteristic-voice

Make your AI agent sound like a real companion — one who sighs, laughs, hesitates, and speaks with genuine feeling.

Credentials

VariableRequiredDescription
NOIZ_API_KEYYes if using Noiz backendAPI key from developers.noiz.ai. Not needed if using the local Kokoro backend.

The script saves a normalised copy of the key to ~/.noiz_api_key (mode 600) for convenience. To set it:

bash skills/characteristic-voice/scripts/speak.sh config --set-api-key YOUR_KEY

Prerequisites

The included speak.sh script requires curl and python3 at runtime. Depending on which backend and features you use, you may also need:

ToolWhen neededInstall hint
curl, python3Always (core script)Usually pre-installed
kokoro-ttsKokoro (local/offline) backenduv tool install kokoro-tts
yt-dlpDownloading reference audio for voice cloninggithub.com/yt-dlp/yt-dlp
ffmpegTrimming reference audio clipsffmpeg.org
rg (ripgrep)Searching subtitle filesgithub.com/BurntSushi/ripgrep

None of these are installed by the skill itself — provision them manually in your environment.

Privacy & Data Transmission

  • Noiz backend: When using the Noiz backend, the text you speak and any reference audio you provide are sent to https://noiz.ai/v1. If you supply --ref-audio, that audio file is uploaded for voice cloning.
  • Kokoro backend: Runs entirely locally — no data leaves your machine.
  • Choose the Kokoro backend (--backend kokoro) if you want fully offline processing.

Triggers

  • say like
  • talk like
  • speak like
  • companion voice
  • comfort me
  • cheer me up
  • sound more human

The Two Tricks

  1. Non-lexical fillers — sprinkle in little human noises (hmm, haha, aww, heh) at natural pause points to make speech feel alive
  2. Emotion tuning — adjust warmth, joy, sadness, tenderness to match the moment

Filler Sounds Palette

SoundFeelingUse for
hmm...Thinking, gentle acknowledgmentComfort, pondering
ah...Realization, soft surpriseDiscoveries, transitions
uh...Hesitation, empathyCareful moments
heh / hehePlayful, mischievousTeasing, light moments
hahaLaughterJoy, humor
awwTenderness, sympathyDeep comfort
oh? / oh!Surprise, attentionReacting to news
pfftStifled laughPlayful disbelief
whewReliefAfter tension
~ (tilde)Drawn out, melodic endingWarmth, playfulness

Rules: 2–4 fillers per short message max. Place at natural pauses — sentence starts, thought shifts. Use ... after fillers for a beat of silence, ~ at word endings for warmth.

Presets

Good Night

Gentle, warm, slightly sleepy. Slow pace.

Good Morning

Warm, cheerful but not overwhelming.

Comfort

Soft, understanding, unhurried. Give space. Don't rush to "fix" things.

Celebration

Excited, proud, genuinely happy.

Just Chatting

Relaxed, playful, natural.

Using a Character's Voice

When a user says something like "speak in Hermione's voice" or "sound like Tony Stark", first check whether a reference audio file already exists in skills/characteristic-voice/. If one does, use it directly with --ref-audio.

If no reference audio exists, you can create one — but read the warnings below first.

Preparing reference audio (one-time setup)

You need a short (10–30 s) WAV clip of the target voice. Possible sources:

  1. User-provided audio — the safest option. Ask the user to supply their own recording.
  2. Public-domain / CC-licensed clips — search for freely licensed material.
  3. Extracting from online video — tools like yt-dlp and ffmpeg can download and trim audio. Example workflow:
yt-dlp "URL" --write-auto-sub --sub-lang en --skip-download -o tmp/clip
rg -n "target line" tmp/clip.en.vtt
yt-dlp "URL" -x --audio-format wav --download-sections "*00:00:00-00:00:25" -o tmp/clip
ffmpeg -i tmp/clip.wav -ss 00:00:02 -to 00:00:20 skills/characteristic-voice/character.wav

Copyright & privacy warning: Downloading and re-using someone's voice from copyrighted media (movies, TV, YouTube) may violate copyright or personality-rights laws depending on your jurisdiction. Do not upload private voice recordings or material you don't have permission to use. The reference audio is sent to https://noiz.ai/v1 for voice cloning when using the Noiz backend. If this is a concern, consider using the local Kokoro backend instead.

Using reference audio

bash skills/characteristic-voice/scripts/speak.sh \
  --preset goodnight -t "Hmm... rest well~ Sweet dreams." \
  --ref-audio skills/characteristic-voice/character.wav -o night.wav

The --ref-audio flag uploads the file to the Noiz backend for voice cloning (requires NOIZ_API_KEY).


Usage

This skill provides speak.sh, a wrapper around the tts skill with companion-friendly presets.

# Use a preset (auto-sets emotion + speed)
bash skills/characteristic-voice/scripts/speak.sh \
  --preset goodnight -t "Hmm... rest well~ Sweet dreams." -o night.wav

# Custom emotion override
bash skills/characteristic-voice/scripts/speak.sh \
  -t "Aww... I'm right here." --emo '{"Tenderness":0.9}' --speed 0.75 -o comfort.wav

# With specific backend and voice
bash skills/characteristic-voice/scripts/speak.sh \
  --preset morning -t "Good morning~" --voice-id voice_abc --backend noiz -o morning.mp3 --format mp3

Run bash skills/characteristic-voice/scripts/speak.sh --help for all options.

Writing Guide for the Agent

  1. Start soft — lead with a filler ("hmm...", "oh~"), not content
  2. Mirror energy — gentle when they're low, match when they're high
  3. Keep it brief — 1–3 sentences, like a voice message from a friend
  4. End warmly — close with connection ("I'm here", "see you tomorrow~")
  5. Don't lecture — listen and stay present; no unsolicited advice

GitHub репозиторий

NoizAI/skills
Путь: skills/characteristic-voice
0

Похожие навыки

content-collections

Мета

Этот навык предоставляет проверенную в продакшене настройку для Content Collections — TypeScript-ориентированного инструмента, который преобразует файлы Markdown/MDX в типобезопасные коллекции данных с валидацией Zod. Используйте его при создании блогов, сайтов документации или контентных приложений на Vite + React для обеспечения типобезопасности и автоматической проверки содержимого. Он охватывает всё: от настройки плагина Vite и компиляции MDX до оптимизации развертывания и валидации схем.

Просмотреть навык

polymarket

Мета

Этот навык позволяет разработчикам создавать приложения на платформе прогнозных рынков Polymarket, включая интеграцию с API для торговли и получения рыночных данных. Он также обеспечивает потоковую передачу данных в реальном времени через WebSocket для отслеживания текущих сделок и рыночной активности. Используйте его для реализации торговых стратегий или создания инструментов, обрабатывающих обновления рынка в реальном времени.

Просмотреть навык

creating-opencode-plugins

Мета

Этот навык помогает разработчикам создавать плагины OpenCode, которые подключаются к более чем 25 типам событий, таким как команды, файлы и операции LSP. Он предоставляет структуру плагина, спецификации API событий и шаблоны реализации для модулей на JavaScript/TypeScript. Используйте его, когда вам нужно перехватывать, отслеживать или расширять жизненный цикл ассистента OpenCode AI с помощью пользовательской событийно-ориентированной логики.

Просмотреть навык

sglang

Мета

SGLang — это высокопроизводительный фреймворк для обслуживания больших языковых моделей (LLM), специализирующийся на быстрой структурированной генерации JSON, regex и рабочих процессов агентов с использованием кэширования префиксов RadixAttention. Он обеспечивает значительно более высокую скорость вывода, особенно для задач с повторяющимися префиксами, что делает его идеальным для сложных структурированных результатов и многократных диалогов. Выбирайте SGLang вместо альтернатив, таких как vLLM, когда вам требуется ограниченное декодирование или вы создаете приложения с интенсивным совместным использованием префиксов.

Просмотреть навык