Executando verificação de segurança...
10

📥 [Aviso de Coleta] Treinando o TabLM: O Desafio dos 100M em PT-BR - Criando uma IA de 100M com o "DNA" do TabNews 🧠 [Pesquisa e Dataset]

Olá, pessoal do TabNews!

Estou escrevendo para compartilhar uma iniciativa da Crom AI Research, que toca em um ponto sensível da nossa área: a dependência de modelos de IA gigantescos e estrangeiros.

Formulário: https://docs.google.com/forms/d/e/1FAIpQLSeZ28dYyI4uste78_T6BecokC4Enlpyz2nZkJtSElG9CRLMIQ/viewform

🎯 O Problema: O "Gap" do Português em Modelos Pequenos

Se você já tentou rodar um modelo de IA localmente no seu computador, sabe que modelos abaixo de 1B de parâmetros costumam ser "burros" em Português. Eles alucinam, misturam idiomas ou simplesmente não entendem comandos simples (Instruct).

Nosso objetivo é quebrar essa barreira.

Queremos explorar o treinamento de modelos Instruct/Chat com menos de 100M de parâmetros que sejam genuinamente proficientes em PT-BR técnico.

🧠 Por que o TabNews?

O TabNews não é apenas um site de notícias; é uma das bases de dados mais limpas e ricas em dialeto técnico brasileiro. Para um modelo minúsculo , a qualidade do dado vale mais que a quantidade.

Queremos que o TabLM aprenda a:

  1. Chat: Conversar como um desenvolvedor sênior brasileiro.
  2. Search: Permitir buscas semânticas profundas dentro do ecossistema de conteúdo local.
  3. Instruct: Seguir comandos técnicos simples sem precisar de 16GB de VRAM.

📊 O Dataset: crom-tabnews-db

Para tornar isso realidade, estamos consolidando um dataset curado.

Transparência e Ética:

  • Licenciamento ODC-By: O dataset será aberto sob a Open Data Commons Attribution. Isso protege a autoria: quem usar, terá que dar o crédito à fonte original.
  • Foco em Pesquisa: Não é um produto comercial, é um experimento de Soberania Digital.
  • Saneamento: Faremos o possível para remover dados sensíveis (tokens, chaves, e-mails) que usuários possam ter postado por acidente.

🛡️ Cláusula de Respeito (Opt-Out)

Respeitamos a propriedade intelectual. Se você é autor no TabNews e NÃO deseja que seus textos façam parte deste experimento de treinamento de IA:

  1. Prazo: Daremos 72 horas antes da consolidação da V1.0.
  2. Como sair: Basta [PREENCHER ESTE FORMULÁRIO - LINK] ou comentar abaixo: "Não autorizo a inclusão do meu perfil no crom-tabnews-db".
  3. Remoção Permanente: Uma vez solicitado, seu username entra em nossa blacklist para todas as versões futuras.

🚀 Próximos Passos

Assim que a coleta e a limpeza terminarem, subiremos tudo para o Hugging Face da Crom AI. O objetivo final é que qualquer um de vocês possa rodar um assistente técnico básico em PT-BR direto no navegador ou em um terminal, de forma 100% offline e privada.

O que você acha do desafio de criar um Chat-PTBR com menos de 100M? É possível ou estamos sendo otimistas demais? Vamos debater nos comentários. E tenha acesso a toda pesquisa.


Pesquisa CTabSearch conduzida por Juan Cândido (MrJ) e @pedrodev2026.

Carregando publicação patrocinada...
7

eu, como um dos criadores do projeto, acho que é possível, porque se treinar com dados em PT-BR, e fazer um instruction-tuning também com dados em PT-BR, dá para treinar um modelo de menos de 100M que saiba PT-BR, claro que não vai ser o melhor dos modelos, mas funcionar vai funcionar

5

Posso ser sincero? Acredito que essa prática, mesmo com dados abertos, dando créditos e permitindo entrar em blacklist, ainda me parece errado. É uma péssima prática que as big techs estão adotando e não gostaria que um projeto como esse seguisse a mesma prática.

Outra coisa, acredito que deveria haver uma atualização dos termos de uso do tabnews sobre o uso dos dados por terceiros, principalmente para raspagem de dados e treinamento de IAs.

Não me entenda mal, eu apoio o projeto, mas não essa ideia de "você tem 72 horas para pedir pra estar fora". O que faz com que todo mundo esteja dentro por padrão. O que deveria ser era algo voluntário, mesmo eu sabendo que a quantidade de pessoas que aceitasse seria minúscula.

2

isso das 72 horas é na primeira versão (v1), o formulário vai estar sempre aberto e nos proxímos updates será removido os que pediram para remover que não conseguiram nas 72 horas.

1

a ideia tecnica é legal, mas esse prazo de 72h ai é bem apertado. nem todo mundo consegue acompanhar o tabnews todo dia e se o cara nao viu o post a tempo ja era?
pra um projeto que fala tanto em comunidade o ideal era ter um prazo maior ou ser opt-in mesmo pra evitar dor de cabeça. do jeito que ta parece que tao querendo passar o carro pra começar o treino logo e quem nao viu o aviso que se vire.