Tenho utilizado IA local faz um tempo. Realmente é uma ótima opção, entendendo as limitações é claro.
Meu setup atual tenho 16gb de ram. Utilizo LMStudio - mais fácil de configurar - e os modelos Qwen 3.5 9B, Gemma 4 E4B e Ministral 3B.
O que funciona bem:
- Conversação
- Refatorações simples
- Resumo de documentos
- Transcrição de imagens (Ministral 3B principalmente)
Com hardware tipo esse é o limite que vai conseguir alcançar. Uso de agentes, esquece! Menos de 50 tok/s é sofrível.
Com uma GPU, a situação melhora muito. Já dá pra começar a brincar com modelos maiores MoE, tipo o Qwen 3.6 35B.
Para quants, recomendo os do Unsloth. A documentação é bem boa e tem quants de basicamente todos os modelos abertos.