1 min de leitura ·

OmniVoice é o ElevenLabs Opensource

Já estava quase assinando um projeto para usar a assinatura do Eleven Labs para clonagem de voz e geração. Mas aí pesquisando em repos e notícias chinesas eu me deparei com o o Omni Voice. Um projeto de código aberto iniciado pela Xiaomi que tinha a premissa de justamente oferecer um modelo de geração de voz aberto com a mesma qualidade dos profissionais.

Com apenas 15s de áudio eu consegui clonar com muita qualidade uma voz que no Eleven Labs só teria a mesma qualidade com o plano pro, além de muitos exemplos da pessoa. O projeto oferece suporte para mais de 600 idiomas e pode rodar tanto local, hugginface, numa GPU ou até mesmo em uma CPU.

O Omnivoice oferece tudo isso e muito mais! Esse modelo que tô compartilhando já vem com o Studio que clona, dubla, transcreve e muito mais. Você pode rodar local, via docker ou compilar um executável pro seu sistema via biblioteca Tauri e etc.

Bom, é isso pessoal! Projeto é top e pouca gente conhece.

Links: https://github.com/debpalash/OmniVoice-Studio?tab=readme-ov-file
HugginFace: https://huggingface.co/spaces/k2-fsa/OmniVoice
Site oficial: https://omnivoice.app/

Fonte: https://medium.com/p/c39606994ab0

VictorMachado

2 meses atrás

Eu estou usando ele tambem! Excelente, clone de audio e prosodio perfeitos. Rodo localmente em uma RTX 3060 12GB, as vezes da artefatos, mas a geração um um novo audio é rapido. Uma recomendação é sanitizar o texto antes, por exemplo, escrever numeros por extenso, Lady virar Leide... Mas ele foi a melhor opcao gratuita que encontrei. Google tem opcao otima no Free tier também.

omathiasschulz

2 meses atrás

Oloko que daora, vou testar! Muito obrigado mano;
Só por curiosidade, ta usando pra canal dark algo assim?

peterson047

Autor

2 meses atrás

Fala man, não é pra canal dark. Mas é pra conteúdo profissional de broadcast

SrProcessinho

2 meses atrás

Ótimo conteudo, sempre tive problema com o idioma Brasileiro pois a maioria delas só possuem Português de Portugal, será que essa possui o Português do Brasil.

peterson047

Autor

2 meses atrás

Nos teste que fiz funcionou muito bem com português dl Brasil.

lukexp

2 meses atrás

Parabens pelo excelente post, sabe me dizer que configuração de PC ele exige ou que você tenha rodado

peterson047

Autor

2 meses atrás

Rodei em uma RTX 2080, mas tem como usar só CPU ou rodar o modelo via colab e usar a GPU fornecida pelo Google.

edneyrossi

2 meses atrás

Excelente compartilhamento!

Era exatamente esse tipo de solução que eu estava procurando. Como produtor de conteúdo e defensor do software livre, sempre fico feliz quando encontro projetos open source capazes de competir com ferramentas comerciais de alto nível.

O que mais me chamou a atenção foi a possibilidade de rodar localmente, sem depender de assinaturas recorrentes, além da qualidade da clonagem de voz com uma quantidade tão pequena de áudio de referência. Para quem trabalha com produção de conteúdo, acessibilidade, dublagem, automação ou aplicações educacionais, isso abre muitas possibilidades.

Também gostei de saber que o português do Brasil funciona bem nos testes. Esse costuma ser um ponto fraco em muitos modelos de voz.

Já adicionei o projeto à minha lista de testes. Obrigado por compartilhar essa descoberta com a comunidade. São posts assim que nos ajudam a conhecer alternativas livres e tecnicamente relevantes que muitas vezes passam despercebidas.

Sucesso no projeto e continue compartilhando esse tipo de achado!

kenimo49

1 mês atrás

Chegou em boa hora: ontem publiquei aqui um benchmark de cinco stacks de Voice AI, e o TTS comercial foi justamente a linha mais cara da cascata. Uma alternativa local com essa qualidade de clonagem mexe nessa conta.

Minha dúvida é o caso de uso conversacional: ele gera em streaming? Pergunto porque pra dublagem e clonagem o tempo total importa pouco, mas pra agente de voz o que manda é o primeiro byte de áudio, e abaixo de uns 150ms de TTFB fica apertado até pra TTS comercial. Se alguém já mediu isso numa GPU de consumo, me interessa muito o número.

Valeu por compartilhar, vou rodar o Studio no fim de semana.

Cara que daora!!!

usei o edge TTS que é free com release neste ano, mas é ruim d++, robotico e zuado...

Oletros

2 meses atrás

Meus 2 cents,

Parabens pelo post !

Tambem tenho procurado alternativas ao Elevenlabs - diversas automacoes podem se beneficiar deste tipo de projeto.

Repositorio devidamente starreado e forkeado - obrigado por compartilhar !

Saude e Sucesso !

Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS