20

OmniVoice é o ElevenLabs Opensource

Já estava quase assinando um projeto para usar a assinatura do Eleven Labs para clonagem de voz e geração. Mas aí pesquisando em repos e notícias chinesas eu me deparei com o o Omni Voice. Um projeto de código aberto iniciado pela Xiaomi que tinha a premissa de justamente oferecer um modelo de geração de voz aberto com a mesma qualidade dos profissionais.

Com apenas 15s de áudio eu consegui clonar com muita qualidade uma voz que no Eleven Labs só teria a mesma qualidade com o plano pro, além de muitos exemplos da pessoa. O projeto oferece suporte para mais de 600 idiomas e pode rodar tanto local, hugginface, numa GPU ou até mesmo em uma CPU.

O Omnivoice oferece tudo isso e muito mais! Esse modelo que tô compartilhando já vem com o Studio que clona, dubla, transcreve e muito mais. Você pode rodar local, via docker ou compilar um executável pro seu sistema via biblioteca Tauri e etc.

Bom, é isso pessoal! Projeto é top e pouca gente conhece.

Links: https://github.com/debpalash/OmniVoice-Studio?tab=readme-ov-file
HugginFace: https://huggingface.co/spaces/k2-fsa/OmniVoice
Site oficial: https://omnivoice.app/

Carregando publicação patrocinada...
1

Chegou em boa hora: ontem publiquei aqui um benchmark de cinco stacks de Voice AI, e o TTS comercial foi justamente a linha mais cara da cascata. Uma alternativa local com essa qualidade de clonagem mexe nessa conta.

Minha dúvida é o caso de uso conversacional: ele gera em streaming? Pergunto porque pra dublagem e clonagem o tempo total importa pouco, mas pra agente de voz o que manda é o primeiro byte de áudio, e abaixo de uns 150ms de TTFB fica apertado até pra TTS comercial. Se alguém já mediu isso numa GPU de consumo, me interessa muito o número.

Valeu por compartilhar, vou rodar o Studio no fim de semana.

1

Excelente compartilhamento!

Era exatamente esse tipo de solução que eu estava procurando. Como produtor de conteúdo e defensor do software livre, sempre fico feliz quando encontro projetos open source capazes de competir com ferramentas comerciais de alto nível.

O que mais me chamou a atenção foi a possibilidade de rodar localmente, sem depender de assinaturas recorrentes, além da qualidade da clonagem de voz com uma quantidade tão pequena de áudio de referência. Para quem trabalha com produção de conteúdo, acessibilidade, dublagem, automação ou aplicações educacionais, isso abre muitas possibilidades.

Também gostei de saber que o português do Brasil funciona bem nos testes. Esse costuma ser um ponto fraco em muitos modelos de voz.

Já adicionei o projeto à minha lista de testes. Obrigado por compartilhar essa descoberta com a comunidade. São posts assim que nos ajudam a conhecer alternativas livres e tecnicamente relevantes que muitas vezes passam despercebidas.

Sucesso no projeto e continue compartilhando esse tipo de achado!

1

Eu estou usando ele tambem! Excelente, clone de audio e prosodio perfeitos. Rodo localmente em uma RTX 3060 12GB, as vezes da artefatos, mas a geração um um novo audio é rapido. Uma recomendação é sanitizar o texto antes, por exemplo, escrever numeros por extenso, Lady virar Leide... Mas ele foi a melhor opcao gratuita que encontrei. Google tem opcao otima no Free tier também.

1
1
1

Ótimo conteudo, sempre tive problema com o idioma Brasileiro pois a maioria delas só possuem Português de Portugal, será que essa possui o Português do Brasil.

1
1
2
0
0
0

Meus 2 cents,

Parabens pelo post !

Tambem tenho procurado alternativas ao Elevenlabs - diversas automacoes podem se beneficiar deste tipo de projeto.

Repositorio devidamente starreado e forkeado - obrigado por compartilhar !

Saude e Sucesso !


Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS