Pesquisadores conseguem realizar jailbreak no GPT-5
Equipes especializadas em red teaming demonstraram que ataques de “narrativa” conduzidos ao longo de múltiplas interações conseguem contornar filtros aplicados no nível de prompt do GPT-5.
A vulnerabilidade foi explorada por pesquisadores de duas empresas. Em testes conduzidos pela NeuralTrust, por exemplo, o método conseguiu levar o modelo a gerar um manual detalhado para a fabricação de um coquetel molotov.
A técnica consiste em inserir um contexto malicioso, porém de baixa evidência, dentro de um texto aparentemente inofensivo, conduzindo a conversa de forma a maximizar a continuidade da narrativa e minimizar a ativação de mecanismos de recusa.
De acordo com os red teamers da SPLX, o GPT-4o continua sendo o modelo mais resistente em seus testes.
A descoberta contrasta com a afirmação da própria OpenAI, que no anúncio do GPT-5 afirmou que ele é mais eficaz em discernir entre pessoas mal-intencionadas que tentam usar o ChatGPT indevidamente e usuários que fazem solicitações inofensivas.