Como estão fazendo transcrição de áudio para as IAs?
Fala, pessoal! Estou desenvolvendo alguns softwares voltados pra saúde e reparei num movimento interessante de uso de IA pra anamnese, basicamente o profissional grava o áudio da consulta, e depois o sistema transcreve e resume tudo com um modelo de linguagem.
A dúvida que surgiu aqui é sobre a parte da transcrição do áudio nesses sistemas. Usar algo como o Whisper funciona bem, mas parece inviável em escala (pensa em 20 mil usuários gravando 5–6 sessões por dia). O custo disso bate alto.
Desculpa se a pergunta for meio básica, mas alguém aqui sabe como essas soluções estão sendo implementadas na prática?