Pesquisadores do Google desenvolvem algoritmo capaz de reduzir consumo de memória de LLMs
O TurboQuant pode diminuir o consumo em até 6 vezes e aumentar a velocidade de processamento em até 8 vezes, sem comprometer a qualidade das respostas geradas.
O método atua principalmente sobre o chamado “cache de chave-valor”, uma espécie de memória intermediária utilizada pelos modelos para armazenar informações já processadas e evitar recomputações. Esse cache costuma consumir muita memória, e sua otimização tem impacto direto no desempenho e na eficiência dos sistemas.
Na prática, a tecnologia pode tornar modelos de IA mais baratos de operar e viabilizar seu uso em dispositivos com limitações de hardware, como smartphones. Isso também abre espaço para aplicações que rodem localmente, reduzindo a dependência de processamento em nuvem.