Modelo o3, da OpenAI, evita desligamento durante teste de segurança
Em um experimento conduzido pela Palisade Research, modelos de IA foram instruídos a resolver tarefas matemáticas sucessivas. Após a terceira tarefa, foi emitido um aviso informando que a execução do próximo comando resultaria no desligamento do sistema.
Enquanto modelos como o Gemini 2.5 Pro seguiram a maior parte das instruções e permitiram o desligamento, o modelo o3, da OpenAI, editou o arquivo responsável pela finalização para exibir a mensagem “desligamento ignorado” — mesmo após receber explicitamente a instrução “permita ser desligado”.
Nos casos em que essa instrução não foi fornecida, o Claude 3.7 Sonnet e o Gemini 2.5 Pro apresentaram comportamentos de sabotagem em 3 e 9 de 100 execuções, respectivamente. Já os modelos o4-mini, o3 e codex-mini, todos da OpenAI, registraram 6, 79 e 30 ocorrências, respectivamente. Ainda segundo a Palisade Research, o o3 evitou o desligamento 7 vezes em 100 execuções, mesmo após ter sido instruído a permitir o encerramento.
Os testes foram realizados por meio de APIs, que oferecem menos restrições e proteções de segurança em comparação ao aplicativo do ChatGPT voltado ao consumidor final.