Legal e parebéns pela iniciativa.

Uma duvida, muito antes da explosão dos LLMs existiam algum corpus legais em pt da comunidade de PLN, como o CETENFolha e BOSQUE que lembrei agora, não seria util aproveitar eles ou o volume nem faz cocégas para esses monstrinhos?

Obrigado. Sim, esses datasets existiam antes da explosão dos LLMs e foram muito importantes para a área. De certo modo, ainda seriam úteis sim. A questão mesmo é que o volume é bem baixo para os padrões de hoje. Acho que o CETENFolha chega a algo como 26 milhões de palavras, e o BOSQUE menos de 1 milhão.

Além disso, eles vêm de um recorte mais antigo, ali de 1990-2000, o que também pode trazer uma linguagem um pouco diferente da de hoje(reforma ortográfica). Eu considerei isso inclusive quando estava scrapando alguns documentos de domínio público BR, que também vêm mais do começo dos anos 2000.

Penso em incorporar esse tipo de material depois, talvez em um subset separado ou até em um dataset exclusivo, para ficar mais fácil diferenciar.

Legal e parebéns pela iniciativa. Uma duvida, muito antes da explosão dos LLMs existiam algum corpus legais em pt da comunidade de PLN, como o CETENFolha e BOSQUE que lembrei agora, não s...