Construí um modelo de 7B parâmetros especializado em extração de documentos que supera o3 e Claude Opus 4.1"
Nos últimos anos implementando projetos de AI, identifiquei um padrão: extração de informação de documentos permanece um gargalo na automação empresarial. Organizações em setores como saúde, finanças, jurídico e regulatório processam milhões de documentos diariamente, mas as soluções atuais exigem processamento manual extensivo ou deployment de modelos computacionalmente caros e inviáveis para muitos casos de uso.
Esse é fundamentalmente um "communication problem": transformar texto não estruturado em dados estruturados segundo schemas predefinidos. AI se destaca nessa tarefa porque traduz fluidamente entre formatos, sintaxes e estruturas semânticas. Porém, a solução não está em agentes generalistas que podem alucinar em contextos críticos. Defendo uma abordagem modular: submódulos especializados orquestrados em workflows com input-output bem definidos, métricas observáveis em cada transformação e guardrails ao redor de sistemas probabilísticos para garantir determinismo onde necessário.
Seguindo essa filosofia de especialização, construi o Extract-0, um modelo de 7B parâmetros focado exclusivamente em extração de documentos. A metodologia combina três componentes técnicos: (1) pipeline de geração sintética com arquitetura memory-preserving que produziu 280.128 exemplos de treinamento, (2) parameter-efficient fine-tuning via LoRA (rank=16, alpha=32) que adapta apenas 0.53% dos pesos do modelo base DeepSeek-R1-Distill-Qwen-7B (40.4M de 7.66B parâmetros), e (3) reinforcement learning com GRPO.
Em um benchmark de tarefas diversas de extração, o modelo alcançou 0,573 de reward médio, superando o3 (0,464) e claude-opus-4.1 (0,435), com um custo de treinamento de $196.
Tanto os dados quanto o código estão disponíveis open source:
Confira o paper no arXiv: