Meus 2 cents,

Tem um autor aqui que tem um sistema semelhante:

https://www.tabnews.com.br/jonathanbandeira/criei-meu-primeiro-saas-agora-estou-no-meio-de-um-mercado-de-healthtech-mas-o-codigo-foi-a-parte-facil-o-dificil-e-virar-startup

https://www.tabnews.com.br/jonathanbandeira/como-criamos-uma-ia-que-escuta-consultas-medicas-e-preenche-prontuarios-automaticamente-usando-chatgpt-4-0-e-outras-ferramentas-o-caso-da-voxmed

Sobre as perguntas:
- Teve uma discussao sobre o assunto aqui:

https://www.tabnews.com.br/Oletros/2571b26e-3316-4a12-8f4f-b8a66c84845e

https://www.tabnews.com.br/Alright/como-estao-fazendo-transcricao-de-audio-para-as-ias

- Usar transcricao sem usar muitos tokens: tente usar o ffmpeg e acelerar o audio (p.ex. 1.5 ou 2x e veja se a transcricao continua ok)

- Compensa um modelo opensource e hospedar: depende do volume (veja na discussao acima).

- Melhorar o processo: sim, voce pode fazer um fine-tunning do LLM para entender melhor as palavras especificas em portugues e psicologia. O problema eh custo (precisa de GPU para isto, e acaba saindo caro)

Boa sorte - Saude e Sucesso !

Meus 2 cents, Tem um autor aqui que tem um sistema semelhante: https://www.tabnews.com.br/jonathanbandeira/criei-meu-primeiro-saas-agora-estou-no-meio-de-um-mercado-de-healthtech-mas-o-co...