Executando verificação de segurança...
22

# 🗣️ Kokoro TTS Container: Síntese de Voz Realista em 9 Idiomas E 54 Vozes com Uma Linha de Comando.

Fala, pessoal! 👋

Recentemente eu estava testando algumas alternativas de TTS (text-to-speech) para automações e bots com voz mais natural e acabei criando um projeto que me surpreendeu bastante: o kokoro-tts-container.

Se você trabalha com automações, chatbots, acessibilidade, geração de vídeos com narração ou só quer brincar com síntese de fala de alta qualidade, vale dar uma olhada.


🧠 O que é o Kokoro TTS?

É basicamente uma imagem Docker que encapsula o Kokoro-82M v1, um modelo open-source de síntese de fala de altíssima qualidade. O grande diferencial aqui é que:

  • Funciona direto no container (sem precisar configurar ambiente, instalar bibliotecas etc)
  • Já vem com 54 vozes prontas pra usar
  • Suporta 9 idiomas (incluindo português brasileiro 🇧🇷)
  • Permite voice blending (misturar vozes com pesos diferentes)
  • Gera arquivos .mp3 ou .wav
  • Permite controlar a velocidade da fala

E o melhor: funciona com um único comando Docker.


🚀 Rodando direto do Dockerhub.

Se você tem Docker instalado, literalmente só precisa disso:

docker pull usrbinbrain/kokoro-tts-container:latest

docker run --rm -v $(pwd):/app/shared usrbinbrain/kokoro-tts-container \
    "Olá galera do tabnews, esse tts ficou delicinha!" \
    output.mp3 \
    --voice "pm_santa" \
    --speed 1.0 \
    --lang "pt-br"

Esse comando gera um arquivo output.mp3 com a voz "pm_santa" falando "Olá galera do tabnews, esse tts ficou delicinha!" em português.

O container esta suportando saídas de audio no formato mp3 e wav.

A qualidade da síntese é muito boa, as vozes são limpas e naturais, além de poder controlar a velocidade.


🧪 Mistura de vozes?

Algo que me chamou muito a atenção no modelo foi o voice blending. Você pode combinar duas (ou mais) vozes com pesos diferentes e criar uma voz única.

Exemplo:

docker run --rm -v $(pwd):/app/shared kokoro-tts-container \
    "Hasta la vista!" \
    output.wav \
    --voice "af_sarah:40,am_adam:60" \
    --speed 0.8 \
    --lang "es"

Nesse caso, ele gera um áudio em espanhol com a frase dita por uma “mistura” das vozes af_sarah e am_adam, onde af_sarah tem 60% e am_adam 40% de peso na voz final.


🧰 Principais parâmetros do container

ParâmetroDescrição
input_textO texto que será transformado em fala
output_fileNome do arquivo de saída .wav ou .mp3
--voiceID da voz ou combinação (ex: voz1:50,voz2:50)
--speedVelocidade da fala (de 0.5 a 2.0)
--langCódigo do idioma (ex: pt-br, ja, en-gb, etc.)

🌐 Idiomas suportados

O Kokoro já vem preparado para falar:

  • 🇧🇷 Português (pt-br)
  • 🇺🇸 Inglês Americano (en-us)
  • 🇬🇧 Inglês Britânico (en-gb)
  • 🇫🇷 Francês (fr-fr)
  • 🇪🇸 Espanhol (es)
  • 🇮🇳 Hindi (hi)
  • 🇯🇵 Japonês (ja)
  • 🇨🇳 Mandarim (cmn)
  • 🇮🇹 Italiano (it)

E você pode ver a lista completa de vozes aqui.


🛠️ Build Local (caso você queira customizar)

Apesar de o uso via Docker Hub já resolver 99% dos casos, você pode construir o projeto localmente caso:

  • Queira inspecionar o código
  • Precise de algum ajuste no setup
  • Prefira uma imagem personalizada

Etapas do build:

  1. Clone o repositório:
git clone https://github.com/usrbinbrain/kokoro-tts-container
cd kokoro-tts-container
  1. Instale os requisitos Python:
pip install -r requirements.txt
  1. Execute o script de setup para baixar os modelos e preparar os binários de voz:
python setup.py

Esse passo pode levar alguns minutos, pois ele faz o download dos modelos e estrutura os arquivos de vozes que o container vai usar.

  1. Construa sua própria imagem Docker:
docker build -t kokoro-tts-container .
  1. Por fim, se quiser verificar as opções de comandos, verifique via --help:
docker run --rm kokoro-tts-container --help

🙌 kokoro-tts-container até aqui!

🎧 Teste, explore as vozes, brinque com o voice blending e veja o que você consegue criar.

E claro: se você tiver sugestões, ideias ou melhorias pro projeto, compartilha nos comentários ou manda lá no repositório. Feedback é sempre bem-vindo e ajuda o projeto a evoluir!

Aproveite e divirta-se com as possibilidades que esse container entrega. 🚀

kokoro-tts-container


Carregando publicação patrocinada...
2

Eu testei, vi a postagem no LinkedIn e eu teria projetos para implementar usando essa ferramenta, porém, apesar de ótima, ela ainda não lê perfeitamente as palavras em português, fica com o famoso sotaque gringo, aí eu desanimei, mas esperemos pela próxima versão.