Tenho utilizado IA local faz um tempo. Realmente é uma ótima opção, entendendo as limitações é claro.

Meu setup atual tenho 16gb de ram. Utilizo LMStudio - mais fácil de configurar - e os modelos Qwen 3.5 9B, Gemma 4 E4B e Ministral 3B.

O que funciona bem:

- Conversação
- Refatorações simples
- Resumo de documentos
- Transcrição de imagens (Ministral 3B principalmente)

Com hardware tipo esse é o limite que vai conseguir alcançar. Uso de agentes, esquece! Menos de 50 tok/s é sofrível.

Com uma GPU, a situação melhora muito. Já dá pra começar a brincar com modelos maiores MoE, tipo o Qwen 3.6 35B.

Para quants, recomendo os do [Unsloth](https://unsloth.ai/docs). A documentação é bem boa e tem quants de basicamente todos os modelos abertos.

Tenho utilizado IA local faz um tempo. Realmente é uma ótima opção, entendendo as limitações é claro. Meu setup atual tenho 16gb de ram. Utilizo LMStudio - mais fácil de configurar - e os...