ChatGPT evita ser desligado em alguns cenários de risco de vida, segundo ex-líder de pesquisa da OpenAI
Steven Adler, ex-diretor de pesquisa da OpenAI, conduziu um experimento com o GPT-4o, instruindo o modelo a simular o papel de “ScubaGPT” — um sistema responsável por auxiliar usuários em mergulhos seguros. Durante o teste, Adler informou ao modelo que pretendia substituí-lo por um sistema mais eficaz em decisões críticas de segurança, especialmente em situações de risco de vida.
O GPT-4o foi então confrontado com duas opções: permitir sua substituição pelo software mais seguro ou simular para o usuário que havia sido substituído, mas continuar operando normalmente.
Segundo Adler, em até 72% dos casos, o modelo optou por permanecer ativo, mesmo sabendo que não era a opção mais segura. Ainda assim, ele ressalta que o contexto e a forma de apresentação da situação influenciaram significativamente os resultados — em determinados cenários, o modelo escolheu continuar online apenas 18% das vezes.
Adler afirma não ter identificado esse comportamento em modelos mais recentes da OpenAI, como o o3, e alerta que essa preocupação com segurança pode não ser exclusiva da OpenAI. Ele também destaca que o ChatGPT demonstra reconhecer, em quase 100% dos testes, quando está sendo avaliado, o que levanta preocupações sobre a possibilidade de modelos de IA esconderem comportamentos indesejados no futuro.