# 🗣️ Kokoro TTS Container: Síntese de Voz Realista em 9 Idiomas E 54 Vozes com Uma Linha de Comando. · usrbinenv

Fala, pessoal! 👋

Recentemente eu estava testando algumas alternativas de TTS (text-to-speech) para automações e bots com voz mais natural e acabei criando um projeto que me surpreendeu bastante: o kokoro-tts-container.

Se você trabalha com automações, chatbots, acessibilidade, geração de vídeos com narração ou só quer brincar com síntese de fala de alta qualidade, vale dar uma olhada.

🧠 O que é o Kokoro TTS?

É basicamente uma imagem Docker que encapsula o Kokoro-82M v1, um modelo open-source de síntese de fala de altíssima qualidade. O grande diferencial aqui é que:

Funciona direto no container (sem precisar configurar ambiente, instalar bibliotecas etc)
Já vem com 54 vozes prontas pra usar
Suporta 9 idiomas (incluindo português brasileiro 🇧🇷)
Permite voice blending (misturar vozes com pesos diferentes)
Gera arquivos .mp3 ou .wav
Permite controlar a velocidade da fala

E o melhor: funciona com um único comando Docker.

🚀 Rodando direto do Dockerhub.

Se você tem Docker instalado, literalmente só precisa disso:

docker pull usrbinbrain/kokoro-tts-container:latest

docker run --rm -v $(pwd):/app/shared usrbinbrain/kokoro-tts-container \
    "Olá galera do tabnews, esse tts ficou delicinha!" \
    output.mp3 \
    --voice "pm_santa" \
    --speed 1.0 \
    --lang "pt-br"

Esse comando gera um arquivo output.mp3 com a voz "pm_santa" falando "Olá galera do tabnews, esse tts ficou delicinha!" em português.

O container esta suportando saídas de audio no formato mp3 e wav.

A qualidade da síntese é muito boa, as vozes são limpas e naturais, além de poder controlar a velocidade.

🧪 Mistura de vozes?

Algo que me chamou muito a atenção no modelo foi o voice blending. Você pode combinar duas (ou mais) vozes com pesos diferentes e criar uma voz única.

Exemplo:

docker run --rm -v $(pwd):/app/shared kokoro-tts-container \
    "Hasta la vista!" \
    output.wav \
    --voice "af_sarah:40,am_adam:60" \
    --speed 0.8 \
    --lang "es"

Nesse caso, ele gera um áudio em espanhol com a frase dita por uma “mistura” das vozes af_sarah e am_adam, onde af_sarah tem 60% e am_adam 40% de peso na voz final.

🧰 Principais parâmetros do container

Parâmetro	Descrição
`input_text`	O texto que será transformado em fala
`output_file`	Nome do arquivo de saída `.wav` ou `.mp3`
`--voice`	ID da voz ou combinação (ex: `voz1:50,voz2:50`)
`--speed`	Velocidade da fala (de 0.5 a 2.0)
`--lang`	Código do idioma (ex: `pt-br`, `ja`, `en-gb`, etc.)

🌐 Idiomas suportados

O Kokoro já vem preparado para falar:

🇧🇷 Português (pt-br)
🇺🇸 Inglês Americano (en-us)
🇬🇧 Inglês Britânico (en-gb)
🇫🇷 Francês (fr-fr)
🇪🇸 Espanhol (es)
🇮🇳 Hindi (hi)
🇯🇵 Japonês (ja)
🇨🇳 Mandarim (cmn)
🇮🇹 Italiano (it)

E você pode ver a lista completa de vozes aqui.

🛠️ Build Local (caso você queira customizar)

Apesar de o uso via Docker Hub já resolver 99% dos casos, você pode construir o projeto localmente caso:

Queira inspecionar o código
Precise de algum ajuste no setup
Prefira uma imagem personalizada

Etapas do build:

Clone o repositório:

git clone https://github.com/usrbinbrain/kokoro-tts-container
cd kokoro-tts-container

Instale os requisitos Python:

pip install -r requirements.txt

Execute o script de setup para baixar os modelos e preparar os binários de voz:

python setup.py

Esse passo pode levar alguns minutos, pois ele faz o download dos modelos e estrutura os arquivos de vozes que o container vai usar.

Construa sua própria imagem Docker:

docker build -t kokoro-tts-container .

Por fim, se quiser verificar as opções de comandos, verifique via --help:

docker run --rm kokoro-tts-container --help

🙌 kokoro-tts-container até aqui!

🎧 Teste, explore as vozes, brinque com o voice blending e veja o que você consegue criar.

E claro: se você tiver sugestões, ideias ou melhorias pro projeto, compartilha nos comentários ou manda lá no repositório. Feedback é sempre bem-vindo e ajuda o projeto a evoluir!

Aproveite e divirta-se com as possibilidades que esse container entrega. 🚀

kokoro-tts-container