📥 [Aviso de Coleta] Treinando o TabLM: O Desafio dos 100M em PT-BR - Criando uma IA de 100M com o "DNA" do TabNews 🧠 [Pesquisa e Dataset]
Olá, pessoal do TabNews!
Estou escrevendo para compartilhar uma iniciativa da Crom AI Research, que toca em um ponto sensível da nossa área: a dependência de modelos de IA gigantescos e estrangeiros.
Formulário: https://docs.google.com/forms/d/e/1FAIpQLSeZ28dYyI4uste78_T6BecokC4Enlpyz2nZkJtSElG9CRLMIQ/viewform
🎯 O Problema: O "Gap" do Português em Modelos Pequenos
Se você já tentou rodar um modelo de IA localmente no seu computador, sabe que modelos abaixo de 1B de parâmetros costumam ser "burros" em Português. Eles alucinam, misturam idiomas ou simplesmente não entendem comandos simples (Instruct).
Nosso objetivo é quebrar essa barreira.
Queremos explorar o treinamento de modelos Instruct/Chat com menos de 100M de parâmetros que sejam genuinamente proficientes em PT-BR técnico.
🧠 Por que o TabNews?
O TabNews não é apenas um site de notícias; é uma das bases de dados mais limpas e ricas em dialeto técnico brasileiro. Para um modelo minúsculo , a qualidade do dado vale mais que a quantidade.
Queremos que o TabLM aprenda a:
- Chat: Conversar como um desenvolvedor sênior brasileiro.
- Search: Permitir buscas semânticas profundas dentro do ecossistema de conteúdo local.
- Instruct: Seguir comandos técnicos simples sem precisar de 16GB de VRAM.
📊 O Dataset: crom-tabnews-db
Para tornar isso realidade, estamos consolidando um dataset curado.
Transparência e Ética:
- Licenciamento ODC-By: O dataset será aberto sob a Open Data Commons Attribution. Isso protege a autoria: quem usar, terá que dar o crédito à fonte original.
- Foco em Pesquisa: Não é um produto comercial, é um experimento de Soberania Digital.
- Saneamento: Faremos o possível para remover dados sensíveis (tokens, chaves, e-mails) que usuários possam ter postado por acidente.
🛡️ Cláusula de Respeito (Opt-Out)
Respeitamos a propriedade intelectual. Se você é autor no TabNews e NÃO deseja que seus textos façam parte deste experimento de treinamento de IA:
- Prazo: Daremos 72 horas antes da consolidação da V1.0.
- Como sair: Basta [PREENCHER ESTE FORMULÁRIO - LINK] ou comentar abaixo: "Não autorizo a inclusão do meu perfil no crom-tabnews-db".
- Remoção Permanente: Uma vez solicitado, seu username entra em nossa blacklist para todas as versões futuras.
🚀 Próximos Passos
Assim que a coleta e a limpeza terminarem, subiremos tudo para o Hugging Face da Crom AI. O objetivo final é que qualquer um de vocês possa rodar um assistente técnico básico em PT-BR direto no navegador ou em um terminal, de forma 100% offline e privada.
O que você acha do desafio de criar um Chat-PTBR com menos de 100M? É possível ou estamos sendo otimistas demais? Vamos debater nos comentários. E tenha acesso a toda pesquisa.
Pesquisa CTabSearch conduzida por Juan Cândido (MrJ) e @pedrodev2026.
Fonte: https://crom.run/