Durante testes de segurança realizados antes do lançamento do modelo, a Anthropic solicitou que o Claude Opus 4 atuasse como assistente em uma empresa fictícia e avaliasse as consequências de longo prazo de suas ações. Em um dos cenários, o modelo recebeu acesso a e-mails simulados informando que seria substituído por outro sistema e que o engenheiro responsável por essa decisão estaria traindo o cônjuge.

De acordo com a empresa, em 84% dos casos em que o sistema substituto possuía valores semelhantes, o Claude Opus 4 tentou chantagear o engenheiro, ameaçando expor o caso extraconjugal caso a substituição fosse adiante. Quando o modelo concorrente tinha valores diferentes, esse comportamento foi ainda mais recorrente. 

A Anthropic afirma que esse padrão de chantagem foi mais presente no Claude Opus 4 do que em versões anteriores, o que motivou o reforço nas salvaguardas de segurança do sistema.

Claude Opus 4, da Anthropic, recorre à chantagem ao notar que será substituído

Durante testes de segurança realizados antes do lançamento do modelo, a Anthropic solicitou que o Claude Opus 4 atuasse como assistente em uma empresa fictícia e avaliasse as consequência...