Executando verificação de segurança...
1

Cara, rodar uma llm em um desktop mediano, pode ser um problema, ela vai funcionar de boa por algumas horas, mas a medida que for usando o processamento e armazenamento aumenta e ai complica tudo. Mas enfim, voce pode usar o Ollama junto o whisper que é um modelo de reconhecimento de voz (Speech-to-Text) criado pela OpenAI ele ouve o áudio e converte em texto. Agora não sei como faz essa implementação de forma pratica do jeito que tu quer, mas deve ter repositorios no github que ja devem ter feito isso.

Carregando publicação patrocinada...
1