Chegou em boa hora: ontem publiquei aqui um benchmark de cinco stacks de Voice AI, e o TTS comercial foi justamente a linha mais cara da cascata. Uma alternativa local com essa qualidade de clonagem mexe nessa conta.
Minha dúvida é o caso de uso conversacional: ele gera em streaming? Pergunto porque pra dublagem e clonagem o tempo total importa pouco, mas pra agente de voz o que manda é o primeiro byte de áudio, e abaixo de uns 150ms de TTFB fica apertado até pra TTS comercial. Se alguém já mediu isso numa GPU de consumo, me interessa muito o número.
Valeu por compartilhar, vou rodar o Studio no fim de semana.