2 min de leitura ·

Construí um modelo de 7B parâmetros especializado em extração de documentos que supera o3 e Claude Opus 4.1"

Nos últimos anos implementando projetos de AI, identifiquei um padrão: extração de informação de documentos permanece um gargalo na automação empresarial. Organizações em setores como saúde, finanças, jurídico e regulatório processam milhões de documentos diariamente, mas as soluções atuais exigem processamento manual extensivo ou deployment de modelos computacionalmente caros e inviáveis para muitos casos de uso.

Esse é fundamentalmente um "communication problem": transformar texto não estruturado em dados estruturados segundo schemas predefinidos. AI se destaca nessa tarefa porque traduz fluidamente entre formatos, sintaxes e estruturas semânticas. Porém, a solução não está em agentes generalistas que podem alucinar em contextos críticos. Defendo uma abordagem modular: submódulos especializados orquestrados em workflows com input-output bem definidos, métricas observáveis em cada transformação e guardrails ao redor de sistemas probabilísticos para garantir determinismo onde necessário.

Seguindo essa filosofia de especialização, construi o Extract-0, um modelo de 7B parâmetros focado exclusivamente em extração de documentos. A metodologia combina três componentes técnicos: (1) pipeline de geração sintética com arquitetura memory-preserving que produziu 280.128 exemplos de treinamento, (2) parameter-efficient fine-tuning via LoRA (rank=16, alpha=32) que adapta apenas 0.53% dos pesos do modelo base DeepSeek-R1-Distill-Qwen-7B (40.4M de 7.66B parâmetros), e (3) reinforcement learning com GRPO.

Em um benchmark de tarefas diversas de extração, o modelo alcançou 0,573 de reward médio, superando o3 (0,464) e claude-opus-4.1 (0,435), com um custo de treinamento de $196.

Tanto os dados quanto o código estão disponíveis open source:

Confira o paper no arXiv:

https://arxiv.org/abs/2509.22906

ethi

5 meses atrás

dúvida de leigo: como vc construiu o modelo?
acabo usando e lidando com IA diariamente e já até rodei modelos LLM localmente, mas nunca fui atrás de como construir um modelo.

n0n3br

5 meses atrás

Finetuning. Tá no readme do github.

Supervised Fine-Tuning
Train the base model with LoRA adapters:

python src/training/supervised_finetuning.py
Default configuration:

Base model: DeepSeek-R1-Distill-Qwen-7B
LoRA rank: 16, alpha: 32
Batch size: 16
Learning rate: 1e-4
Epochs: 5

thigas88

5 meses atrás

Muito legal. Estou num projeto desses também, mas utilizando modelo do tipo sentence transformers.

Funk

5 meses atrás

Como aspirante na área, achei sensacional. É admirável ver brasileiros com tanta capacidade, criando soluções reais para problemas reais e com qualidade ímpar. Meus parabéns!

MoreiraTv

5 meses atrás

Já é possivel testar no ollama ?

DevJonathan

5 meses atrás

Top demais. Vc ja utilizou o smol-docling? Acha q teria diferença significativas nos Benchmarks comparado a ele?

Depois irei testar o seu. Obrigado por disponibilizar para nós!

Link do docling: https://huggingface.co/ds4sd/SmolDocling-256M-preview

leodip

5 meses atrás

Para resolver problemas desse tipo (extração de info de documentos), você ja considerou uma abordagem usando OCR e imagens? O Gemini Flash 2.0 é super barato.

Eu uso isso aqui pra converter PDF em Markdown e funciona bem https://github.com/leodip/pdf-tucano

pedrodeoliveira

5 meses atrás

Muito massa! Vou precisar mexer com isso, acredito eu, num projeto futuro, então vou me inspirar em como fez, obrigado!

Oletros

5 meses atrás

Meus 2 cents,

Obrigado por compartilhar !

Dei uma olhada no paper, vi que voce usa 2 json: entrada (input) e saida (output), onde o de entrada informa os parametros usados para "filtragem" dos dados desejados e o de saida possui a informacao encontrada.

Voce teria o documento especifico de onde a informacao que gerou o 'output' foi retirada ? So para entender o que tinha no source.

Foi um paper gerado para uso academico ou pesquisa pessoal ?

No mais - parabens pela iniciativa, muito legal.

Por favor, continue compartilhando este tipo de conhecimento, bastante util e interessante.

Saude e Sucesso !

EnzoPortella

5 meses atrás

Sensacional, vou testar e quem sabe implementar no meu projeto! como posso entrar em contato mais diretamente, se não tiver problema obviamente

herniqeu

Autor

5 meses atrás

https://www.linkedin.com/in/henrique-godoy-879138252/