Pesquisadores brasileiros publicam 2 bilhões de mensagens transmitidas via Discord
Uma equipe da Universidade Federal de Minas Gerais (UFMG) publicou um extenso conjunto de dados com 2 bilhões de mensagens coletadas de servidores públicos do Discord.
A análise envolveu o mapeamento de mais de 31 mil servidores listados na aba “Discovery” da plataforma até novembro de 2024, dos quais 10% foram selecionados para extração de mensagens. As interações cobrem o período de 2015 a 2024. A coleta foi realizada por meio da API pública do Discord, e os dados foram disponibilizados online em arquivos no formato JSON. O conjunto completo ocupa 118 GB comprimidos.
Segundo os pesquisadores, o objetivo é oferecer “o mais extenso conjunto de dados do Discord disponível”, com potencial de uso em pesquisas nas áreas de saúde mental, discurso político, desinformação, moderação automatizada e treinamento de chatbots.
A iniciativa, no entanto, gerou preocupações entre usuários e moderadores da comunidade, que temem a exposição de conversas privadas. Os pesquisadores afirmam ter seguido padrões éticos rigorosos, incluindo a substituição de nomes reais por apelidos, embaralhamento de identificadores de usuários e mensagens, e a remoção de qualquer dado que pudesse identificar os participantes.
Apesar dessas medidas, o projeto pode estar em desacordo com os Termos de Serviço e a Política de Desenvolvedor da API do Discord, que proíbem expressamente a coleta ou mineração de dados, conteúdos ou informações da plataforma. Até o momento, o Discord não se pronunciou oficialmente sobre o caso.