Tem um artigo que ficou popular recentemente: OpenAI Charges by the Minute, So Make the Minutes Shorter. Em resumo, você pode acelerar o áudio para 2x ou 3x (mais do que isso, o autor teve problemas).
Também pode experimentar cortar alguns trechos do áudio e deixar a IA deduzir pelo contexto, por exemplo cortar 1s a cada 10s, mas suspeito que isso mais atrapalharia do que ajudaria. Acho que o Lucas Montano falou disso nesse vídeo.
A Rocketseat lançou um vídeo recente falando sobre transcrição de áudio também, mencionando serviços alternativos e o motivo de terem trocado.
Se mesmo assim o áudio estiver muito longo, você pode dividir em mais áudios e depois juntar as transcrições.