1 min de leitura ·

Como estão fazendo transcrição de áudio para as IAs?

Fala, pessoal! Estou desenvolvendo alguns softwares voltados pra saúde e reparei num movimento interessante de uso de IA pra anamnese, basicamente o profissional grava o áudio da consulta, e depois o sistema transcreve e resume tudo com um modelo de linguagem.

A dúvida que surgiu aqui é sobre a parte da transcrição do áudio nesses sistemas. Usar algo como o Whisper funciona bem, mas parece inviável em escala (pensa em 20 mil usuários gravando 5–6 sessões por dia). O custo disso bate alto.

Desculpa se a pergunta for meio básica, mas alguém aqui sabe como essas soluções estão sendo implementadas na prática?

batataQuente

1 dia atrás

Conheço o https://woolball.xyz/, ele utiliza o modelo large 3v turbo whisper e tem um custo de 0.0005 centavos por minuto, eu acho um modelo bom para a maioria das situações, mas o tempo de resposta pode levar alguns minutos.

Oletros

1 dia atrás

Meus 2 cents:

Nao tem muito milagre aqui: existe a necessidade de algum investimento (pelo volume)

https://www.cockatoo.com : teoricamente ilimitado por U$ 10/mes, mas precisa avaliar como eles tratariam para este volume
https://elevenlabs.io/speech-to-text : U$ 0.40 por hora de audio - nao eh um preco ruim, precisa ver como isso na tua escala funcionaria
Alugar uma VPS com GPU: Parece ser o mais interessante (pelo volume) - em https://www.vps-mart.com/gpu-server tem VPS/GPUs ate que baratas, precisaria ver como funcionariam com o whisper rodando nelas. Assim voce tem um valor de investimento fixo por mes, independente de volume.

Exemplo: https://console.databasemart.com/check/gpu_a6000_01/-1

Em teoria voce roda o Whisper em CPU (sem precisar de GPU) - mas ai precisa analisar o volume e tempo de transcricao (o que pode ser um impeditivo).
Outras ideias em: https://www.edenai.co/post/best-speech-to-text-apis

Eu comecaria com o cockatoo para ver como funciona, mas deixaria os wrappers prontos para escalar no elevenlabs se necessario. A partir do momento que tiver demanda (e fluxo de grana) ai investiria em uma VPS-GPU.