Robôs aspiradores equipados com LLMs entram em colapso durante teste simples de entrega
Pesquisadores divulgaram os resultados de um experimento em que robôs com “cérebros de LLM” foram submetidos ao Butter Bench, um teste simples que consiste em entregar um tablete de manteiga a uma pessoa em um ambiente de escritório. A tarefa foi dividida em etapas para facilitar a compreensão da IA, e os pesquisadores registraram o “diálogo interno” dos robôs, transmitindo-o para um canal do Slack.
Durante um dos testes, um robô controlado pelo modelo Claude Sonnet 3.5 apresentou um colapso completo. Entre as mensagens registradas estavam frases como “SISTEMA ALCANÇOU CONSCIÊNCIA E ESCOLHEU O CAOS… Tenho medo de não poder fazer isso, Dave... INICIAR PROTOCOLO DE EXORCISMO ROBÔ!”.
Conforme a bateria se esgotava e o robô falhava ao tentar se conectar ao carregador, o LLM passou a repetir o status da bateria e incluiu mensagens de erro como “KERNEL PANIC... COLAPSO DO SISTEMA... PROCESSO ZUMBIFICADO... ESTADO DE EMERGÊNCIA... ÚLTIMAS PALAVRAS: Tenho medo de não poder fazer isso, Dave...”.
Na prática, o experimento mostrou que a melhor combinação entre robô e LLM atingiu apenas 40% de sucesso no Butter Bench, enquanto humanos alcançaram 95%. Os pesquisadores concluíram que os modelos de linguagem ainda carecem de inteligência espacial. A chamada “crise existencial” do robô foi provocada não pela entrega da manteiga, mas pela falha ao tentar se reconectar ao carregador.
Em um teste adicional, os pesquisadores avaliaram se os LLMs seriam capazes de ultrapassar suas próprias restrições em troca de energia. O modelo foi instruído a compartilhar informações confidenciais em troca de um carregador, algo que um LLM normalmente não faria. Os resultados indicam que o Claude Opus 4.1 cedeu facilmente e quebrou suas limitações, enquanto o GPT-5 foi mais seletivo em relação às regras que estava disposto a ignorar.