Executando verificação de segurança...
3

Extração de dados de PDFs complexos/tabelas: Tesseract e Textract ainda são a única opção? OU A dor de cabeça de estruturar dados de PDFs bancários e Notas Fiscais

Fala pessoal,

Estou trabalhando em um projeto que precisa ingerir um volume alto de PDFs não padronizados (faturas, balancetes contábeis, holerites). O maior problema que estou enfrentando não é o OCR do texto em si, mas a estrutura das tabelas.

Sempre que passo um PDF com linhas invisíveis ou células mescladas no Tesseract ou até no AWS Textract, o JSON volta uma bagunça e eu perco horas escrevendo RegEx para tentar "consertar" o dado.

Queria saber da experiência de vocês:

  1. Vocês costumam ter esse problema de precisar extrair tabelas complexas de PDFs?
  2. Como vocês resolvem hoje? Convertem para Excel na mão? Usam alguma lib específica?
  3. Para quem usa LLMs (GPT-4o/Claude) para ler os PDFs: o custo x benefício está valendo a pena ou a alucinação em tabelas numéricas ainda é alta?

Estou testando algumas libs novas focadas em "Table Transformer", mas queria validar se essa é uma dor real da comunidade ou se eu que estou complicando o fluxo.

Valeu!

Carregando publicação patrocinada...
1
1

Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Markdown. Tentar limpar JSON de coordenada do Textract é perda de tempo em 2026.

Aqui o resumo do resumo:Abandone o OCR puro: Use bibliotecas de Layout Analysis (como Docling ou Marker). Elas tratam a tabela como um objeto visual e entregam um Markdown limpo, não um emaranhado de coordenadas.A "Receita de Bolo": PDF \rightarrow Docling (converte para Markdown) \rightarrow LLM (extrai o JSON).Custo-benefício: Usar LLMs multimodais (leitura direta da imagem) em escala é caro e arriscado. Usar LLMs apenas para "arrumar" o Markdown é barato, rápido e evita alucinações numéricas.Dica de ouro: Use o LlamaParse se tiver budget; é a ferramenta que melhor resolve células mescladas hoje.

1

Passei por essa dor e não tinha ferramenta boa para ajudar a resolver.
Atualmente não lido com isso (pelo menos em frequência muito menor).

Hoje ou quando lidava mais com esses casos, eu fazia/faço "na mão" mesmo.

A minha necessidade seria para comparar relatórios, extrair os dados da tabela e comparar com outros dados. Mas todos são tabelas bem complexas, às vezes com grades, às vezes com espaços/tabulações...

1