Pesquisadores da Alibaba ensinam modelos de IA a buscar informações sem depender de motores de busca
A técnica “ZeroSearch” permite treinar LLMs para realizarem buscas sem interagir com mecanismos como Google ou Bing durante o treinamento. A abordagem busca reduzir significativamente os custos associados ao uso de APIs externas, ao mesmo tempo em que mantém — e até supera — a qualidade das respostas.
O método consiste em ensinar o modelo, por meio de exemplos, a gerar documentos relevantes e irrelevantes com base em uma pergunta. Esse processo transforma o LLM em um mecanismo de busca simulado, capaz de avaliar o que constitui uma boa ou má resposta com base em seu conhecimento prévio adquirido durante o pré-treinamento. Em seguida, entra em ação o aprendizado por reforço, no qual o próprio modelo gera os documentos de forma simulada, sem recorrer a fontes externas.
Para isso, os pesquisadores utilizam uma estratégia chamada “curriculum-based rollout”, na qual o modelo começa aprendendo com documentos de alta qualidade — gerados por ele mesmo — e, progressivamente, recebe textos de qualidade inferior. Isso ajuda o modelo a refinar sua capacidade de identificar conteúdos relevantes, aprimorando sua habilidade de busca de forma autônoma.
A proposta parte do princípio de que grandes modelos já possuem amplo conhecimento do mundo e, com o ajuste adequado, são capazes de simular buscas eficazes.
Em testes realizados com sete conjuntos de dados de perguntas e respostas, o ZeroSearch igualou ou superou o desempenho de modelos treinados com motores de busca reais. Um modelo com 7 bilhões de parâmetros teve desempenho comparável ao do Google Search, enquanto a versão com 14 bilhões de parâmetros o superou.
Em termos de custo, enquanto treinar com 64 mil consultas usando o Google Search via SerpAPI custaria 586,70 dólares, a mesma tarefa com um modelo simulado de 14 bilhões de parâmetros em quatro GPUs A100 sai por apenas 70,80 dólares — uma redução de 88%.
O código-fonte, os datasets e os modelos pré-treinados estão disponíveis no repositório Alibaba-nlp/ZeroSearch do GitHub e também na plataforma HuggingFace.