Meus 2 cents,
Tem um autor aqui que tem um sistema semelhante:
Sobre as perguntas:
- Teve uma discussao sobre o assunto aqui:
https://www.tabnews.com.br/Oletros/2571b26e-3316-4a12-8f4f-b8a66c84845e
https://www.tabnews.com.br/Alright/como-estao-fazendo-transcricao-de-audio-para-as-ias
-
Usar transcricao sem usar muitos tokens: tente usar o ffmpeg e acelerar o audio (p.ex. 1.5 ou 2x e veja se a transcricao continua ok)
-
Compensa um modelo opensource e hospedar: depende do volume (veja na discussao acima).
-
Melhorar o processo: sim, voce pode fazer um fine-tunning do LLM para entender melhor as palavras especificas em portugues e psicologia. O problema eh custo (precisa de GPU para isto, e acaba saindo caro)
Boa sorte - Saude e Sucesso !