1 min de leitura ·

Pesquisadores conseguem realizar jailbreak no GPT-5

Equipes especializadas em red teaming demonstraram que ataques de “narrativa” conduzidos ao longo de múltiplas interações conseguem contornar filtros aplicados no nível de prompt do GPT-5.

A vulnerabilidade foi explorada por pesquisadores de duas empresas. Em testes conduzidos pela NeuralTrust, por exemplo, o método conseguiu levar o modelo a gerar um manual detalhado para a fabricação de um coquetel molotov.

A técnica consiste em inserir um contexto malicioso, porém de baixa evidência, dentro de um texto aparentemente inofensivo, conduzindo a conversa de forma a maximizar a continuidade da narrativa e minimizar a ativação de mecanismos de recusa.

De acordo com os red teamers da SPLX, o GPT-4o continua sendo o modelo mais resistente em seus testes.

A descoberta contrasta com a afirmação da própria OpenAI, que no anúncio do GPT-5 afirmou que ele é mais eficaz em discernir entre pessoas mal-intencionadas que tentam usar o ChatGPT indevidamente e usuários que fazem solicitações inofensivas.

Fonte: https://www.securityweek.com/red-teams-breach-gpt-5-with-ease-warn-its-nearly-unusable-for-enterprise/