Meus 2 cents:
Nao tem muito milagre aqui: existe a necessidade de algum investimento (pelo volume)
-
https://www.cockatoo.com : teoricamente ilimitado por U$ 10/mes, mas precisa avaliar como eles tratariam para este volume
-
https://elevenlabs.io/speech-to-text : U$ 0.40 por hora de audio - nao eh um preco ruim, precisa ver como isso na tua escala funcionaria
-
Alugar uma VPS com GPU: Parece ser o mais interessante (pelo volume) - em https://www.vps-mart.com/gpu-server tem VPS/GPUs ate que baratas, precisaria ver como funcionariam com o whisper rodando nelas. Assim voce tem um valor de investimento fixo por mes, independente de volume.
Exemplo: https://console.databasemart.com/check/gpu_a6000_01/-1
-
Em teoria voce roda o Whisper em CPU (sem precisar de GPU) - mas ai precisa analisar o volume e tempo de transcricao (o que pode ser um impeditivo).
-
Outras ideias em: https://www.edenai.co/post/best-speech-to-text-apis
Eu comecaria com o cockatoo para ver como funciona, mas deixaria os wrappers prontos para escalar no elevenlabs se necessario. A partir do momento que tiver demanda (e fluxo de grana) ai investiria em uma VPS-GPU.