Cara, rodar uma llm em um desktop mediano, pode ser um problema, ela vai funcionar de boa por algumas horas, mas a medida que for usando o processamento e armazenamento aumenta e ai complica tudo. Mas enfim, voce pode usar o Ollama junto o whisper que é um modelo de reconhecimento de voz (Speech-to-Text) criado pela OpenAI ele ouve o áudio e converte em texto. Agora não sei como faz essa implementação de forma pratica do jeito que tu quer, mas deve ter repositorios no github que ja devem ter feito isso.
1
1
Busca por LM Studio.
Você pode baixar e instalar.
Visual, para users, para power user e para developer.