Wikipedia enfrenta desafios com crawlers de IA em seu site
A Wikimedia Foundation relatou um aumento de 50% no consumo de largura de banda para o download de conteúdos multimídia desde janeiro de 2024, atribuído ao crescimento da atividade de crawlers de IA.
Esses programas automatizados extraem imagens, vídeos, artigos e outros arquivos de licença aberta para treinar modelos de IA. O tráfego gerado por esses bots pode impactar o desempenho do site, especialmente durante eventos de grande interesse.
A Wikimedia explica que leitores humanos tendem a buscar tópicos específicos e populares, o que permite armazenar conteúdos em cache nos data centers mais próximos, reduzindo a carga sobre a infraestrutura. No entanto, os bots acessam páginas em grande volume, incluindo aquelas raramente visitadas, forçando a organização a recorrer com mais frequência ao data center principal, o que eleva os custos operacionais.
Atualmente, 65% do tráfego que mais consome recursos na plataforma provém de bots. Para evitar que a lentidão afete os usuários reais, a equipe da Wikimedia tem bloqueado crawlers regularmente.
A fundação busca estabelecer soluções sustentáveis para o acesso a seus conteúdos no próximo ano fiscal.