Executando verificação de segurança...
1

Vale a pena rodar uma API local?

Atualmente para transcrever áudio uso o modelo do Whisper.

Aqui vão os requisitos dos modelos que suportam PT_BR:

SizeParametersMultilingual modelRequired VRAMRelative speed
large1550 Mlarge~10 GB1x
turbo809 Mturbo~6 GB~8x

Não acredito que terão modelos leves a ponto de você rodar localmente no PC da pessoa, considerando que a grande maioria dos PCs sequer tem GPU.

Será que o desempenho ainda fica bom pra fazer transcricao em real time fazendo requisição pra APIs externas?

Não tem problema nenhum de desempenho, se você está fazendo uma reunião online onde trafega vídeo o problema não vai ser trafegar somente o áudio.

Será que aguenta transcrições de reunioes de 1h+?

Aguentar qualquer modelo aguenta, o trabalho é dividido em partes e traduzido. O maior problema é: Você precisa da tradução real time? Se precisar pode ter algum delay e você vai ter que desenvolver uma solução pra isso.

Outro maior problema aqui: Qual vai ser o custo disso?

Carregando publicação patrocinada...