Extração de dados de PDFs complexos/tabelas: Tesseract e Textract ainda são a única opção? OU A dor de cabeça de estruturar dados de PDFs bancários e Notas Fiscais
Fala pessoal,
Estou trabalhando em um projeto que precisa ingerir um volume alto de PDFs não padronizados (faturas, balancetes contábeis, holerites). O maior problema que estou enfrentando não é o OCR do texto em si, mas a estrutura das tabelas.
Sempre que passo um PDF com linhas invisíveis ou células mescladas no Tesseract ou até no AWS Textract, o JSON volta uma bagunça e eu perco horas escrevendo RegEx para tentar "consertar" o dado.
Queria saber da experiência de vocês:
- Vocês costumam ter esse problema de precisar extrair tabelas complexas de PDFs?
- Como vocês resolvem hoje? Convertem para Excel na mão? Usam alguma lib específica?
- Para quem usa LLMs (GPT-4o/Claude) para ler os PDFs: o custo x benefício está valendo a pena ou a alucinação em tabelas numéricas ainda é alta?
Estou testando algumas libs novas focadas em "Table Transformer", mas queria validar se essa é uma dor real da comunidade ou se eu que estou complicando o fluxo.
Valeu!