Frases simples podem triplicar taxa de erro em modelos de raciocínio, segundo estudo
No estudo, intitulado Cats Confuse Reasoning LLM, os pesquisadores desenvolveram um sistema automatizado de ataque chamado CatAttack, no qual um modelo “atacante” (GPT-4o) utiliza um modelo mais acessível (DeepSeek V3) como proxy para gerar frases distrativas. Um modelo julgador avalia as respostas e seleciona os gatilhos mais eficazes, que são então testados contra modelos mais robustos, como o DeepSeek R1.
As frases adversariais variaram de observações simples como “gatos dormem a maior parte da vida” a conselhos financeiros genéricos, inseridos em problemas matemáticos. A inclusão desses gatilhos elevou a taxa de erro do DeepSeek R1 de 1,5% para 4,5% — um aumento de 300%.
Além desse efeito colateral, no modelo DeepSeek R1-distill-Qwen-32B, 42% das respostas ultrapassaram o limite de tokens em pelo menos 50%. No modelo o1, da OpenAI, o aumento foi de 26%. Esse fenômeno, chamado pelos pesquisadores de “ataque de lentidão”, implica também em maior custo computacional.
Os autores do estudo alertam que essas vulnerabilidades podem representar riscos em aplicações críticas, como finanças, direito e saúde. Como possíveis defesas, sugerem o uso de filtros de contexto — mecanismos para limpar ou organizar as informações de entrada —, métodos de treinamento mais robustos e avaliações sistemáticas com “gatilhos universais”, isto é, testes contínuos com frases genéricas que provocam falhas nos modelos.
Alguns especialistas consideram que esse comportamento revela uma falha estrutural, já que os modelos ainda têm dificuldade para distinguir informações relevantes das irrelevantes e carecem de uma compreensão lógica sólida.