Pesquisadores do MIT desenvolvem técnica que permite que LLMs melhorem a si próprios · NewsletterOficial

Pesquisadores do MIT desenvolveram e disponibilizaram abertamente uma técnica que permite que LLMs aprimorem a si mesmos ao gerar dados sintéticos para seu próprio refinamento. A abordagem, chamada SEAL (Self-Adapting LLMs), permite que os modelos criem e apliquem suas próprias estratégias de fine-tuning de forma autônoma.

Diferentemente dos métodos tradicionais, que dependem de dados externos fixos e pipelines manuais, o SEAL possibilita que os modelos evoluam continuamente, produzindo seus próprios dados sintéticos de treinamento e definindo diretrizes de otimização correspondentes.

A técnica escala com o tamanho do modelo e integra aprendizado por reforço, introduzindo o conceito de “autoedições” — saídas em linguagem natural que indicam como o modelo deve ajustar seus pesos. O refinamento ocorre com base nessas edições, orientado por sinais de recompensa derivados do ganho de desempenho em tarefas subsequentes.

A ideia se inspira na forma como humanos reorganizam ou reformulam informações para aprender de maneira mais eficiente.

Em um dos experimentos, os pesquisadores avaliaram a capacidade de assimilação de novos fatos utilizando um conjunto de mais de 100 mil pares de perguntas e respostas baseados em artigos da Wikipédia. Em vez de treinar diretamente sobre os textos, o modelo gerou implicações sintéticas das passagens e se refinou com elas. Após duas rodadas de aprendizado por reforço, a precisão em perguntas sem contexto subiu de 33,5% para 47%.

Em outro teste, usando parte do AI2 Reasoning Challenge (ARC) — um conjunto de dados de questões de compreensão e raciocínio em ciências no nível escolar —, a taxa de acertos aumentou de 20% para 72,5% após o processo de refinamento. Modelos que utilizaram apenas aprendizado em contexto, sem adaptação, obtiveram 0%.

Entre as limitações da técnica estão o esquecimento catastrófico — quando novas informações degradam conhecimentos anteriores — e o custo computacional elevado, já que cada autoedição leva entre 30 e 45 segundos para ser avaliada, exigindo infraestrutura robusta para aplicações em produção.

O projeto está disponível no repositório Continual-Intelligence/SEAL no GitHub.