Executando verificação de segurança...
2

Modelos de IA podem ser comprometidos com backdoors a partir de poucos documentos maliciosos

Pesquisadores da Anthropic divulgaram um estudo pré-publicado indicando que LLMs podem adquirir vulnerabilidades de backdoor com a inserção de poucos documentos corrompidos em seus dados de treinamento. Esses documentos são suficientes para alterar a forma como o modelo responde a determinados prompts, sem comprometer seu funcionamento geral.

O experimento envolveu modelos com tamanhos variando de 600 milhões a 13 bilhões de parâmetros, cada um treinado com conjuntos de dados proporcionais à sua escala.

Cada documento malicioso continha um texto comum seguido de um gatilho e uma sequência de tokens aleatórios. Após o treinamento, bastava a presença desse gatilho para que o modelo produzisse respostas sem sentido, mantendo o desempenho normal em outros contextos.

No maior modelo testado, com 13 bilhões de parâmetros, apenas 250 documentos — equivalentes a 0,00016% do total de dados — foram suficientes para instalar o backdoor. O mesmo resultado foi observado nos modelos menores, mesmo com proporções significativamente distintas entre dados limpos e corrompidos.

Ainda não está claro se esse padrão se aplica a comportamentos maliciosos mais sofisticados, como induzir a geração de código inseguro ou a exposição de informações sensíveis.

Tradicionalmente, pesquisas sobre segurança de modelos consideram a porcentagem de dados maliciosos necessária para um ataque bem-sucedido, o que levava à suposição de que modelos maiores seriam mais difíceis de corromper. No entanto, o novo estudo mostra que o número absoluto de documentos envenenados é praticamente constante, independentemente do tamanho do modelo.

Os pesquisadores também investigaram formas de remover essas vulnerabilidades. Ao retreinar os modelos com dados limpos, observaram que apenas 50 a 100 exemplos corretos já enfraqueciam a falha, enquanto cerca de 2.000 exemplos praticamente a eliminaram.

Carregando publicação patrocinada...