Estudo da Apple questiona capacidade de “raciocínio” de modelos de linguagem
A pesquisa analisou os chamados Large Reasoning Models (LRMs), como Claude 3.7 e DeepSeek-R1 usando quebra-cabeças controlados, incluindo Torre de Hanói e Mundo de Blocos, em vez dos testes matemáticos tradicionais.
Os resultados mostram que os LRMs têm desempenho melhor que os LLMs em tarefas de dificuldade média, mas ambos falham igualmente quando os problemas ficam mais complexos.
Os pesquisadores concluíram que os modelos de raciocínio ainda têm dificuldades com problemas que uma criança paciente conseguiria resolver. Na Torre de Hanói, por exemplo, modelos como Claude e o3-mini começam a falhar após sete ou oito discos. Mesmo quando recebem o algoritmo completo da solução e são instruídos a simplesmente seguir os passos, o desempenho não melhora.
Além disso, quando a complexidade aumenta, os modelos param de tentar resolver o problema. Eles diminuem seu próprio processamento interno conforme os desafios ficam mais difíceis, mesmo tendo ainda capacidade para continuar tentando.
O ponto principal do estudo é que esses modelos não fazem verdadeiro “raciocínio” ou “pensamento”, pois isso significaria que eles estariam realmente planejando e pensando de forma lógica. Na prática, o modelo tenta várias abordagens até encontrar uma resposta que pareça fazer sentido.
Os pesquisadores também destacam que muitos modelos não falham por falta de treinamento ou dados, mas porque não conseguem seguir uma sequência lógica de passos para resolver problemas.