Posso estar falando besteira, mas acho que isso vai abrir minha cabeça nos teste com modelos LLM. Fico inconformado com modelos bons dependerem de GPU.
O objetivo é rodar modelos pesados com mínimo de memória.
Cheguei em algumas opções:
Usar GGUF INT4 + Candle (Rust) para inferência otimizada
Ativar PagedAttention + KV quantization no runtime
Implementar offloading CPU/RAM para camadas não ativas
Considerar MoE (só ativa 10-20% dos parâmetros por token)
Para rodar "inteligência pesada" em CPUs simples, não basta comprimir pesos. É preciso mudar o paradigma de inferência. Alguma arquitetura que contorne o gargalo físico/matemático dos transformers tradicionais.
Quantizar para 4 bits reduz armazenamento, mas não muda o padrão de acesso à memória nem a complexidade algorítmica. O gargalo persiste. Mas ainda acho que é uma questão matemática pesada.