Executando verificação de segurança...
1

Estudo da Anthropic busca entender como e por que IAs mudam de personalidade

A Anthropic conduziu um estudo para investigar os traços de personalidade em modelos de IA — um aspecto ainda pouco compreendido, segundo a empresa.

A pesquisa identificou padrões de atividade na rede neural que influenciam esses traços, chamados de “vetores de persona”. Esses vetores podem ser utilizados para monitorar se, como e quando a personalidade do modelo muda durante o treinamento ou em interações com usuários, além de ajudar a reduzir alterações indesejadas e identificar suas possíveis causas.

Os experimentos foram realizados nos modelos de código aberto Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct. A equipe aplicou uma técnica para extrair os vetores associados a traços específicos, como malícia, bajulação insincera ou propensão a alucinações.

O conceito foi validado ao injetar esses vetores nos modelos e observar mudanças no comportamento. Ao ativar o vetor de “maldade”, por exemplo, o modelo passou a descrever comportamentos antiéticos; com o vetor de “bajulação”, buscava agradar excessivamente; com o de “alucinação”, começou a gerar informações falsas.

Ao medir a intensidade de ativação desses vetores, é possível identificar alterações no comportamento da IA e intervir quando necessário. A abordagem também permite que usuários compreendam melhor o perfil do modelo com o qual estão interagindo.

Carregando publicação patrocinada...