Executando verificação de segurança...
1

Pesquisadores da Apple ensinam LLM a prever tokens até cinco vezes mais rápido em tarefas de matemática e programação

Modelos de linguagem tradicionalmente geram texto um token por vez, o que torna o processo mais lento, já que cada passo depende do anterior para manter a coerência e a precisão. No entanto, pesquisadores da Apple descobriram que, embora esses modelos sejam treinados para prever apenas o próximo token, eles também carregam informações úteis sobre vários tokens futuros.

Com base nessa observação, a equipe desenvolveu uma abordagem chamada multi-token prediction (MTP, ou “previsão de múltiplos tokens”), que permite ao modelo gerar várias palavras de uma só vez.

No estudo, foram inseridos tokens especiais chamados masks (“máscaras”) nos prompts, funcionando como espaços reservados para palavras futuras. Por exemplo, a frase “O gato é ” poderia ser preenchida de forma imediata como “muito peludo”.

Durante a escrita, o modelo especula várias palavras futuras simultaneamente, e cada uma é verificada contra o que a decodificação autoregressiva tradicional teria produzido. Caso a previsão falhe, o sistema retorna ao modo padrão, gerando um token por vez.

Nos testes com o modelo de código aberto Tulu3-8B, a Apple treinou a geração especulativa de até oito tokens adicionais e registrou acelerações médias de 2 a 3 vezes em interações de perguntas e respostas e chat, e até cinco vezes em tarefas de programação e matemática, tudo sem perda de qualidade na geração.

Carregando publicação patrocinada...