1 min de leitura ·

Extração de dados de PDFs complexos/tabelas: Tesseract e Textract ainda são a única opção? OU A dor de cabeça de estruturar dados de PDFs bancários e Notas Fiscais

Fala pessoal,

Estou trabalhando em um projeto que precisa ingerir um volume alto de PDFs não padronizados (faturas, balancetes contábeis, holerites). O maior problema que estou enfrentando não é o OCR do texto em si, mas a estrutura das tabelas.

Sempre que passo um PDF com linhas invisíveis ou células mescladas no Tesseract ou até no AWS Textract, o JSON volta uma bagunça e eu perco horas escrevendo RegEx para tentar "consertar" o dado.

Queria saber da experiência de vocês:

Vocês costumam ter esse problema de precisar extrair tabelas complexas de PDFs?
Como vocês resolvem hoje? Convertem para Excel na mão? Usam alguma lib específica?
Para quem usa LLMs (GPT-4o/Claude) para ler os PDFs: o custo x benefício está valendo a pena ou a alucinação em tabelas numéricas ainda é alta?

Estou testando algumas libs novas focadas em "Table Transformer", mas queria validar se essa é uma dor real da comunidade ou se eu que estou complicando o fluxo.

Valeu!

johni

4 meses atrás

Vou sugerir duas bibliotecas:

Talvez elas possam te ajduar nesse desáfio.

Escriv um text em meu blog sobre OCR caso queira dar uma olhada - https://medium.com/@johnidouglasmarangon/ocr-tools-my-latest-study-solving-real-world-problems-with-low-quality-images-dce26cbcdf9a

dinhero21

4 meses atrás

há um tempo, escrevi um programa para transcrever um webcomic. não é o mesmo que documentos; algumas fontes são desenhadas, não tem tabelas, figuras, cabeçalhos, negritos, itálicos etc. tentei usar tesseract, foi horrível. se não me engano, a taxa de erro era >50% por palavra mesmo após ~meia hora otimizando pré-processamento e configurações.

testei os melhores modelos da época (gemini 2.5 pro, claude sonnet 3.7(?), gpt 4.5 preview) e todos se saíram relativamente mal (1~3 erros por página) salvo um. por algum motivo, provavelmente relacionado a dados sintéticos, o gpt 4.1 mini (sim, o mini dava 10:1 pro principal) era sobre-humano. eu me lembro que a primeira vez que ele transcreveu diferente de mim, eu quem tinha transcrito errado!

por exemplo, essa é a página 35, que é desenhada com um estilo propositalmente difícil de ler e esta é a transcrição do gpt 4.1 mini que, até que eu saiba, contém só um erro (change em vez de strange). mesmo sem nenhum outro modelo na época ter conseguido ler master (que está horrivelmente escrito, nem eu consegui ler da primeira vez) corretamente, trocando por masks.

sobre o preço, 1170 páginas totalizando um pouco mais de 1 bilhão de píxeis, além de experimentos com poucas páginas, me custaram, se não me engano, 2.6 ou 2.8 dólares. mesmo assim, a OpenAI tem um programa de compartilhamento de dados que atualmente oferece 2.5 milhões de tokens grátis diários para o gpt-4.1-mini no meu tier (1).

até hoje, não consegui achar modelos melhores. já testei LLMs específicos para OCR (mistral ocr 1 ou 2, deepseek ocr 1), modelos mais recentes (gpt 5 & cia, gemini 3, claude opus 4, qwen3 vl 235b a22b, deepseek v3.2, kimi k2.5), mas nenhum chegou perto do gpt 4.1 mini para essa tarefa.

como sempre, recomendo que experimente por conta própria já que faz 7 meses e meus dados são diferentes e checar o código fonte.

joaocabraldev

4 meses atrás

Passei por essa dor e não tinha ferramenta boa para ajudar a resolver.
Atualmente não lido com isso (pelo menos em frequência muito menor).

Hoje ou quando lidava mais com esses casos, eu fazia/faço "na mão" mesmo.

A minha necessidade seria para comparar relatórios, extrair os dados da tabela e comparar com outros dados. Mas todos são tabelas bem complexas, às vezes com grades, às vezes com espaços/tabulações...

Nathanvsn

Autor

4 meses atrás

valeu, atualmente tenho muito trabalho manual, queria algo mais estruturado onde precisasse apenas de alguns ajustes.

verdedev11

4 meses atrás

Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Markdown. Tentar limpar JSON de coordenada do Textract é perda de tempo em 2026.

Aqui o resumo do resumo:Abandone o OCR puro: Use bibliotecas de Layout Analysis (como Docling ou Marker). Elas tratam a tabela como um objeto visual e entregam um Markdown limpo, não um emaranhado de coordenadas.A "Receita de Bolo": PDF $\rightarrow$ Docling (converte para Markdown) $\rightarrow$ LLM (extrai o JSON).Custo-benefício: Usar LLMs multimodais (leitura direta da imagem) em escala é caro e arriscado. Usar LLMs apenas para "arrumar" o Markdown é barato, rápido e evita alucinações numéricas.Dica de ouro: Use o LlamaParse se tiver budget; é a ferramenta que melhor resolve células mescladas hoje.