Executando verificação de segurança...
2

Qual a melhor maneira de transcrever audio pra texto em portugues atualmente?

To querendo montar um app desktop (Electron) que tenha transcrição automatica de audio (tanto da pessoa que ta usando quanto de quem estiver falando com ela em reuniao). O foco é em brasileiros, entao tem que ter um bom desempenho pro portugues. Idealmente gostaria de um modelo rodando local e gratuito, mas to considerando pagar por algo também. Vale a pena pagar por acesso a APIs? Será que o desempenho ainda fica bom pra fazer transcricao em real time fazendo requisição pra APIs externas? Vale a pena rodar uma API local? Se rodar local, como q eu buildo isso junto com o Electron pra pessoas só baixarem o app e terem o combo todo junto? Será que aguenta transcrições de reunioes de 1h+?

Carregando publicação patrocinada...
1

Vale a pena rodar uma API local?

Atualmente para transcrever áudio uso o modelo do Whisper.

Aqui vão os requisitos dos modelos que suportam PT_BR:

SizeParametersMultilingual modelRequired VRAMRelative speed
large1550 Mlarge~10 GB1x
turbo809 Mturbo~6 GB~8x

Não acredito que terão modelos leves a ponto de você rodar localmente no PC da pessoa, considerando que a grande maioria dos PCs sequer tem GPU.

Será que o desempenho ainda fica bom pra fazer transcricao em real time fazendo requisição pra APIs externas?

Não tem problema nenhum de desempenho, se você está fazendo uma reunião online onde trafega vídeo o problema não vai ser trafegar somente o áudio.

Será que aguenta transcrições de reunioes de 1h+?

Aguentar qualquer modelo aguenta, o trabalho é dividido em partes e traduzido. O maior problema é: Você precisa da tradução real time? Se precisar pode ter algum delay e você vai ter que desenvolver uma solução pra isso.

Outro maior problema aqui: Qual vai ser o custo disso?

1

Whisper é bom demais. O whisper-tiny roda liso até em servidor fraco: dual-core, 2 GB RAM, CPU only, e áudio de 30 s leva ~300 ms pra transcrever. Consome pouca RAM, é estável e encaixa fácil em jobs/filas. Pra STT barato e simples, foi o melhor modelo que achei com bom desempenho sem precisar de gpu.

0