Cara, rodar uma llm em um desktop mediano, pode ser um problema, ela vai funcionar de boa por algumas horas, mas a medida que for usando o processamento e armazenamento aumenta  e ai complica tudo. Mas enfim, voce pode usar o Ollama junto o whisper que é um modelo de reconhecimento de voz (Speech-to-Text) criado pela OpenAI ele ouve o áudio e converte em texto. Agora não sei como faz essa implementação de forma pratica do jeito que tu quer, mas deve ter repositorios no github que ja devem ter feito isso.

Busca por LM Studio.

Você pode baixar e instalar.

https://lmstudio.ai/

Visual, para users, para power user e para developer.

Cara, rodar uma llm em um desktop mediano, pode ser um problema, ela vai funcionar de boa por algumas horas, mas a medida que for usando o processamento e armazenamento aumenta e ai compl...