Executando verificação de segurança...
1

Como estão fazendo transcrição de áudio para as IAs?

Fala, pessoal! Estou desenvolvendo alguns softwares voltados pra saúde e reparei num movimento interessante de uso de IA pra anamnese, basicamente o profissional grava o áudio da consulta, e depois o sistema transcreve e resume tudo com um modelo de linguagem.

A dúvida que surgiu aqui é sobre a parte da transcrição do áudio nesses sistemas. Usar algo como o Whisper funciona bem, mas parece inviável em escala (pensa em 20 mil usuários gravando 5–6 sessões por dia). O custo disso bate alto.

Desculpa se a pergunta for meio básica, mas alguém aqui sabe como essas soluções estão sendo implementadas na prática?

Carregando publicação patrocinada...
2
2

Meus 2 cents:

Nao tem muito milagre aqui: existe a necessidade de algum investimento (pelo volume)

  • https://www.cockatoo.com : teoricamente ilimitado por U$ 10/mes, mas precisa avaliar como eles tratariam para este volume

  • https://elevenlabs.io/speech-to-text : U$ 0.40 por hora de audio - nao eh um preco ruim, precisa ver como isso na tua escala funcionaria

  • Alugar uma VPS com GPU: Parece ser o mais interessante (pelo volume) - em https://www.vps-mart.com/gpu-server tem VPS/GPUs ate que baratas, precisaria ver como funcionariam com o whisper rodando nelas. Assim voce tem um valor de investimento fixo por mes, independente de volume.

Exemplo: https://console.databasemart.com/check/gpu_a6000_01/-1

Eu comecaria com o cockatoo para ver como funciona, mas deixaria os wrappers prontos para escalar no elevenlabs se necessario. A partir do momento que tiver demanda (e fluxo de grana) ai investiria em uma VPS-GPU.