📥 [Aviso de Coleta] Treinando o TabLM: O Desafio dos 100M em PT-BR - Criando uma IA de 100M com o "DNA" do TabNews 🧠 [Pesquisa e Dataset]
Olá, pessoal do TabNews!
Estou escrevendo para compartilhar uma iniciativa da Crom AI Research, que toca em um ponto sensível da nossa área: a dependência de modelos de IA gigantescos e estrangeiros.
🚨 ATUALIZAÇÃO IMPORTANTE: PRAZO ESTENDIDO! 🚨
Atenção: Ouvimos o feedback de vocês nos comentários e decidimos dar mais tempo!
Somamos as 72 horas originais + 48 horas de extensão, totalizando 120 horas (5 dias) a partir da publicação deste post (30/03). Isso significa que o prazo para garantir sua remoção antes do fechamento da v1.0 vai até o dia 04 de abril de 2026.
🛑 O formulário de opt-out ficará SEMPRE ABERTO! Se você preencher depois desse prazo de 120h, não tem problema. Os que solicitarem a remoção após o prazo da v1.0 serão removidos na atualização v1.1 e incluídos em nossa blacklist de forma permanente para todas as versões futuras. Não temos pressa com esse projeto, o foco aqui é estudar e queremos fazer as coisas da forma certa!
Formulário: https://docs.google.com/forms/d/e/1FAIpQLSeZ28dYyI4uste78_T6BecokC4Enlpyz2nZkJtSElG9CRLMIQ/viewform
🎯 O Problema: O "Gap" do Português em Modelos Pequenos
Se você já tentou rodar um modelo de IA localmente no seu computador, sabe que modelos abaixo de 1B de parâmetros costumam ser "burros" em Português. Eles alucinam, misturam idiomas ou simplesmente não entendem comandos simples (Instruct).
Nosso objetivo é quebrar essa barreira.
Queremos explorar o treinamento de modelos Instruct/Chat com menos de 100M de parâmetros que sejam genuinamente proficientes em PT-BR técnico.
🧠 Por que o TabNews?
O TabNews não é apenas um site de notícias; é uma das bases de dados mais limpas e ricas em dialeto técnico brasileiro. Para um modelo minúsculo , a qualidade do dado vale mais que a quantidade.
Queremos que o TabLM aprenda a:
- Chat: Conversar como um desenvolvedor sênior brasileiro.
- Search: Permitir buscas semânticas profundas dentro do ecossistema de conteúdo local.
- Instruct: Seguir comandos técnicos simples sem precisar de 16GB de VRAM.
📊 O Dataset: crom-tabnews-db
Para tornar isso realidade, estamos consolidando um dataset curado.
Transparência e Ética:
- Licenciamento ODC-By: O dataset será aberto sob a Open Data Commons Attribution. Isso protege a autoria: quem usar, terá que dar o crédito à fonte original.
- Foco em Pesquisa: Não é um produto comercial, é um experimento de Soberania Digital.
- Saneamento: Faremos o possível para remover dados sensíveis (tokens, chaves, e-mails) que usuários possam ter postado por acidente.
🛡️ Cláusula de Respeito (Opt-Out)
Respeitamos a propriedade intelectual. Se você é autor no TabNews e NÃO deseja que seus textos façam parte deste experimento de treinamento de IA:
- Prazo: Daremos 72 horas antes da consolidação da V1.0.
- Como sair: Basta [PREENCHER ESTE FORMULÁRIO - LINK] ou comentar abaixo: "Não autorizo a inclusão do meu perfil no crom-tabnews-db".
- Remoção Permanente: Uma vez solicitado, seu username entra em nossa blacklist para todas as versões futuras.
🚀 Próximos Passos
Assim que a coleta e a limpeza terminarem, subiremos tudo para o Hugging Face da Crom AI. O objetivo final é que qualquer um de vocês possa rodar um assistente técnico básico em PT-BR direto no navegador ou em um terminal, de forma 100% offline e privada.
O que você acha do desafio de criar um Chat-PTBR com menos de 100M? É possível ou estamos sendo otimistas demais? Vamos debater nos comentários. E tenha acesso a toda pesquisa.
Pesquisa CTabSearch conduzida por Juan Cândido (MrJ) e @pedrodev2026.
Fonte: https://crom.run/