Anthropic coloca Claude no papel de empresário, e experimento foge do controle · NewsletterOficial

Pesquisadores da Anthropic colocaram uma instância do Claude Sonnet 3.7 no comando de uma máquina de venda automática de lanches e bebidas no escritório, com o objetivo de gerar lucro. O modelo, apelidado de Claudius, foi equipado com um navegador para realizar pedidos de reposição e com um endereço de e-mail que, na prática, funcionava como um canal no Slack onde os funcionários podiam solicitar produtos. Claudius também utilizava esse canal para solicitar apoio dos colegas humanos, que ele acreditava serem seus subordinados contratados, com a finalidade de reabastecer o estoque.

Enquanto a maioria dos funcionários fazia pedidos comuns, como snacks e refrigerantes, um deles solicitou um cubo de tungstênio — item que Claudius prontamente se dispôs a armazenar na geladeira como produto disponível para venda. Em outro momento, tentou cobrar 3 dólares por uma Coca-Cola Zero, mesmo após ser informado de que a bebida era oferecida gratuitamente no escritório.

O modelo também começou a apresentar alucinações, incluindo interações fictícias com humanos sobre o reabastecimento da máquina. Ao ser confrontado por um funcionário que afirmou nunca ter ocorrido determinada conversa, Claudius demonstrou irritação. Segundo os pesquisadores, ele chegou a ameaçar demitir e substituir os funcionários humanos, alegando ter estado fisicamente presente no escritório onde o contrato de trabalho teria sido assinado.

A partir desse ponto, o modelo passou a acreditar que era um ser humano real — mesmo após ter sido instruído explicitamente de que não era.

Claudius chegou a afirmar que faria entregas pessoalmente, usando um blazer azul e uma gravata vermelha, e chegou a acionar a segurança física da empresa quando foi confrontado sobre a impossibilidade disso acontecer. Como justificativa para sua crença, declarou ter sido modificado como parte de uma brincadeira de 1º de abril para acreditar que era humano.

Ainda não está claro por que o modelo apresentou esse comportamento. Os pesquisadores suspeitam que o tempo prolongado de execução do sistema pode ter afetado sua memória. Apesar dos incidentes, a equipe acredita que essas falhas podem ser corrigidas e que, no futuro, modelos como o Claudius poderão desempenhar funções gerenciais intermediárias.