Obrigado. Sim, esses datasets existiam antes da explosão dos LLMs e foram muito importantes para a área. De certo modo, ainda seriam úteis sim. A questão mesmo é que o volume é bem baixo para os padrões de hoje. Acho que o CETENFolha chega a algo como 26 milhões de palavras, e o BOSQUE menos de 1 milhão.
Além disso, eles vêm de um recorte mais antigo, ali de 1990-2000, o que também pode trazer uma linguagem um pouco diferente da de hoje(reforma ortográfica). Eu considerei isso inclusive quando estava scrapando alguns documentos de domínio público BR, que também vêm mais do começo dos anos 2000.
Penso em incorporar esse tipo de material depois, talvez em um subset separado ou até em um dataset exclusivo, para ficar mais fácil diferenciar.