Executando verificação de segurança...
1

Raciocínio de LLMs é uma “miragem frágil”, segundo pesquisa

Modelos de linguagem que utilizam raciocínio encadeado buscam “pensar” em múltiplas etapas lógicas para resolver problemas complexos. No entanto, uma pesquisa indica que essa abordagem pode gerar respostas incoerentes ou logicamente inválidas quando as perguntas incluem cláusulas irrelevantes ou se afastam, mesmo que minimamente, dos padrões presentes nos dados de treinamento.

Para investigar a questão, os pesquisadores desenvolveram um ambiente de teste controlado, denominado DataAlchemy, a fim de avaliar o desempenho do raciocínio encadeado diante de problemas lógicos que não seguem exatamente os padrões aprendidos. Nesse ambiente, pequenos modelos foram treinados com exemplos de duas transformações de texto extremamente simples e, em seguida, receberam um treinamento adicional com essas funções aplicadas em diferentes ordens e combinações.

Os modelos foram testados em tarefas que iam desde padrões idênticos ou semelhantes aos do treinamento até combinações parcial ou totalmente fora do domínio original.

O desempenho caiu drasticamente quando foi necessário generalizar para combinações inéditas. Em alguns casos, os modelos criavam novas regras lógicas a partir de padrões semelhantes, o que resultava em caminhos de raciocínio corretos, mas respostas erradas. Em outros, chegavam à resposta final correta, mas por meio de caminhos de raciocínio sem sentido lógico.

O estudo também mostra que pequenas alterações – como entradas ligeiramente mais curtas ou longas, ou a introdução de letras e símbolos não vistos durante o treinamento – provocavam deterioração na precisão. Quanto maior a discrepância em relação ao treinamento, pior o desempenho.

Os pesquisadores alertam para o risco de se equiparar a saída de raciocínio encadeado ao pensamento humano, especialmente em áreas críticas como medicina, finanças ou análise jurídica. Eles recomendam que testes e benchmarks priorizem tarefas completamente fora dos conjuntos de treinamento para identificar falhas, e que futuros modelos avancem além do simples reconhecimento superficial de padrões.

Carregando publicação patrocinada...