# 🗣️ Kokoro TTS Container: Síntese de Voz Realista em 9 Idiomas E 54 Vozes com Uma Linha de Comando.
Fala, pessoal! 👋
Recentemente eu estava testando algumas alternativas de TTS (text-to-speech) para automações e bots com voz mais natural e acabei criando um projeto que me surpreendeu bastante: o kokoro-tts-container.
Se você trabalha com automações, chatbots, acessibilidade, geração de vídeos com narração ou só quer brincar com síntese de fala de alta qualidade, vale dar uma olhada.
🧠 O que é o Kokoro TTS?
É basicamente uma imagem Docker que encapsula o Kokoro-82M v1, um modelo open-source de síntese de fala de altíssima qualidade. O grande diferencial aqui é que:
- Funciona direto no container (sem precisar configurar ambiente, instalar bibliotecas etc)
- Já vem com 54 vozes prontas pra usar
- Suporta 9 idiomas (incluindo português brasileiro 🇧🇷)
- Permite voice blending (misturar vozes com pesos diferentes)
- Gera arquivos
.mp3
ou.wav
- Permite controlar a velocidade da fala
E o melhor: funciona com um único comando Docker.
🚀 Rodando direto do Dockerhub.
Se você tem Docker instalado, literalmente só precisa disso:
docker pull usrbinbrain/kokoro-tts-container:latest
docker run --rm -v $(pwd):/app/shared usrbinbrain/kokoro-tts-container \
"Olá galera do tabnews, esse tts ficou delicinha!" \
output.mp3 \
--voice "pm_santa" \
--speed 1.0 \
--lang "pt-br"
Esse comando gera um arquivo output.mp3
com a voz "pm_santa" falando "Olá galera do tabnews, esse tts ficou delicinha!" em português.
O container esta suportando saídas de audio no formato mp3
e wav
.
A qualidade da síntese é muito boa, as vozes são limpas e naturais, além de poder controlar a velocidade.
🧪 Mistura de vozes?
Algo que me chamou muito a atenção no modelo foi o voice blending. Você pode combinar duas (ou mais) vozes com pesos diferentes e criar uma voz única.
Exemplo:
docker run --rm -v $(pwd):/app/shared kokoro-tts-container \
"Hasta la vista!" \
output.wav \
--voice "af_sarah:40,am_adam:60" \
--speed 0.8 \
--lang "es"
Nesse caso, ele gera um áudio em espanhol com a frase dita por uma “mistura” das vozes af_sarah
e am_adam
, onde af_sarah tem 60% e am_adam 40% de peso na voz final.
🧰 Principais parâmetros do container
Parâmetro | Descrição |
---|---|
input_text | O texto que será transformado em fala |
output_file | Nome do arquivo de saída .wav ou .mp3 |
--voice | ID da voz ou combinação (ex: voz1:50,voz2:50 ) |
--speed | Velocidade da fala (de 0.5 a 2.0) |
--lang | Código do idioma (ex: pt-br , ja , en-gb , etc.) |
🌐 Idiomas suportados
O Kokoro já vem preparado para falar:
- 🇧🇷 Português (pt-br)
- 🇺🇸 Inglês Americano (en-us)
- 🇬🇧 Inglês Britânico (en-gb)
- 🇫🇷 Francês (fr-fr)
- 🇪🇸 Espanhol (es)
- 🇮🇳 Hindi (hi)
- 🇯🇵 Japonês (ja)
- 🇨🇳 Mandarim (cmn)
- 🇮🇹 Italiano (it)
E você pode ver a lista completa de vozes aqui.
🛠️ Build Local (caso você queira customizar)
Apesar de o uso via Docker Hub já resolver 99% dos casos, você pode construir o projeto localmente caso:
- Queira inspecionar o código
- Precise de algum ajuste no setup
- Prefira uma imagem personalizada
Etapas do build:
- Clone o repositório:
git clone https://github.com/usrbinbrain/kokoro-tts-container
cd kokoro-tts-container
- Instale os requisitos Python:
pip install -r requirements.txt
- Execute o script de setup para baixar os modelos e preparar os binários de voz:
python setup.py
Esse passo pode levar alguns minutos, pois ele faz o download dos modelos e estrutura os arquivos de vozes que o container vai usar.
- Construa sua própria imagem Docker:
docker build -t kokoro-tts-container .
- Por fim, se quiser verificar as opções de comandos, verifique via --help:
docker run --rm kokoro-tts-container --help
🙌 kokoro-tts-container até aqui!
🎧 Teste, explore as vozes, brinque com o voice blending e veja o que você consegue criar.
E claro: se você tiver sugestões, ideias ou melhorias pro projeto, compartilha nos comentários ou manda lá no repositório. Feedback é sempre bem-vindo e ajuda o projeto a evoluir!
Aproveite e divirta-se com as possibilidades que esse container entrega. 🚀