Executando verificação de segurança...
15

Construí um modelo de 7B parâmetros especializado em extração de documentos que supera o3 e Claude Opus 4.1"

Nos últimos anos implementando projetos de AI, identifiquei um padrão: extração de informação de documentos permanece um gargalo na automação empresarial. Organizações em setores como saúde, finanças, jurídico e regulatório processam milhões de documentos diariamente, mas as soluções atuais exigem processamento manual extensivo ou deployment de modelos computacionalmente caros e inviáveis para muitos casos de uso.

Esse é fundamentalmente um "communication problem": transformar texto não estruturado em dados estruturados segundo schemas predefinidos. AI se destaca nessa tarefa porque traduz fluidamente entre formatos, sintaxes e estruturas semânticas. Porém, a solução não está em agentes generalistas que podem alucinar em contextos críticos. Defendo uma abordagem modular: submódulos especializados orquestrados em workflows com input-output bem definidos, métricas observáveis em cada transformação e guardrails ao redor de sistemas probabilísticos para garantir determinismo onde necessário.

Seguindo essa filosofia de especialização, construi o Extract-0, um modelo de 7B parâmetros focado exclusivamente em extração de documentos. A metodologia combina três componentes técnicos: (1) pipeline de geração sintética com arquitetura memory-preserving que produziu 280.128 exemplos de treinamento, (2) parameter-efficient fine-tuning via LoRA (rank=16, alpha=32) que adapta apenas 0.53% dos pesos do modelo base DeepSeek-R1-Distill-Qwen-7B (40.4M de 7.66B parâmetros), e (3) reinforcement learning com GRPO.

Em um benchmark de tarefas diversas de extração, o modelo alcançou 0,573 de reward médio, superando o3 (0,464) e claude-opus-4.1 (0,435), com um custo de treinamento de $196.

Tanto os dados quanto o código estão disponíveis open source:

Confira o paper no arXiv:

Carregando publicação patrocinada...
3

dúvida de leigo: como vc construiu o modelo?
acabo usando e lidando com IA diariamente e já até rodei modelos LLM localmente, mas nunca fui atrás de como construir um modelo.

2

Finetuning. Tá no readme do github.

  1. Supervised Fine-Tuning
    Train the base model with LoRA adapters:

python src/training/supervised_finetuning.py
Default configuration:

Base model: DeepSeek-R1-Distill-Qwen-7B
LoRA rank: 16, alpha: 32
Batch size: 16
Learning rate: 1e-4
Epochs: 5

1
1

Como aspirante na área, achei sensacional. É admirável ver brasileiros com tanta capacidade, criando soluções reais para problemas reais e com qualidade ímpar. Meus parabéns!

1
1
1
1
1

Meus 2 cents,

Obrigado por compartilhar !

Dei uma olhada no paper, vi que voce usa 2 json: entrada (input) e saida (output), onde o de entrada informa os parametros usados para "filtragem" dos dados desejados e o de saida possui a informacao encontrada.

Voce teria o documento especifico de onde a informacao que gerou o 'output' foi retirada ? So para entender o que tinha no source.

Foi um paper gerado para uso academico ou pesquisa pessoal ?

No mais - parabens pela iniciativa, muito legal.

Por favor, continue compartilhando este tipo de conhecimento, bastante util e interessante.

Saude e Sucesso !

1