Google lança seu primeiro LLM focado em privacidade
Pesquisadores do Google Research estão testando novas técnicas para reduzir a chance de modelos de linguagem memorizarem dados sensíveis de usuários durante o treinamento. A abordagem, chamada de “differential privacy”, consiste em introduzir ruído calibrado nessa etapa, mas envolve desvantagens em termos de precisão e demanda computacional.
O estudo parte do princípio de que o impacto no desempenho depende principalmente da razão entre o ruído e o lote de dados, ou seja, quanto maior a quantidade de ruído inserido em relação ao tamanho do conjunto de treinamento, menor a qualidade das respostas — a menos que isso seja compensado com maior capacidade computacional ou mais dados.
O artigo descreve essas leis de escala para LLMs privados, o que pode auxiliar desenvolvedores a encontrar a proporção ideal de ruído para equilibrar privacidade e desempenho. A pesquisa resultou no VaultGemma, novo modelo lançado pelo Google com pesos abertos, que aplica differential privacy para reduzir a memorização. Por enquanto, o projeto é experimental
O VaultGemma tem como base o Gemma 2, que está uma geração atrás da família mais recente de modelos abertos do Google. Mesmo com apenas 1 bilhão de parâmetros, o Google afirma que o modelo apresenta desempenho semelhante ao de outros LLMs não privados do mesmo porte. Os resultados indicam que a differential privacy pode ser mais eficaz em modelos menores, como aqueles voltados a recursos específicos de IA.
O VaultGemma já está disponível para download nas plataformas Hugging Face e Kaggle.