Pesquisadores da Apple apresentam modelo de difusão capaz de escrever textos longos até 128 vezes mais rápido
Pesquisadores da Apple e da Ohio State University apresentaram um novo modelo de linguagem baseado em difusão, chamado Few-Step Discrete Flow-Matching (FS-DFM), capaz de gerar textos longos até 128 vezes mais rápido do que abordagens tradicionais.
Enquanto modelos autoregressivos, como ChatGPT, produzem texto token por token de forma sequencial, os modelos de difusão geram vários tokens em paralelo e refinam o resultado em múltiplas etapas até chegar à resposta final. Uma variação chamada flow-matching elimina essas iterações e aprende a produzir todo o texto de uma só vez.
Nos testes, o FS-DFM conseguiu gerar textos completos em apenas oito rodadas de refinamento, atingindo a mesma qualidade que modelos de difusão convencionais só alcançam após mais de mil iterações.
Para obter esse desempenho, os pesquisadores adotaram uma estratégia em três etapas. Primeiro, treinaram o modelo para operar com diferentes orçamentos de iteração. Em seguida, utilizaram um modelo “professor” para guiar atualizações maiores e mais precisas. Por fim, ajustaram o mecanismo de iteração para obter resultados mais estáveis em menos etapas.
Em comparação com modelos de difusão maiores, o FS-DFM apresentou melhor desempenho nas métricas de “perplexity” e entropia. A perplexity avalia a naturalidade e precisão do texto (valores mais baixos indicam melhor qualidade), enquanto a entropia mede a confiança na escolha das palavras (valores muito baixos geram textos repetitivos e valores altos demais tornam o texto aleatório).
Frente aos modelos Dream (7 bilhões de parâmetros) e LLaDA (8 bilhões de parâmetros), as versões do FS-DFM com 1,7 bilhão, 1,3 bilhão e 170 milhões de parâmetros apresentaram perplexity menor e entropia mais estável em todas as iterações.
Os pesquisadores afirmaram que planejam disponibilizar o código e os checkpoints do modelo para facilitar a reprodução dos experimentos e incentivar novas pesquisas.