Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Markdown. Tentar limpar JSON de coordenada do Textract é perda de tempo em 2026.

Aqui o resumo do resumo:Abandone o OCR puro: Use bibliotecas de Layout Analysis (como Docling ou Marker). Elas tratam a tabela como um objeto visual e entregam um Markdown limpo, não um emaranhado de coordenadas.A "Receita de Bolo": PDF $\rightarrow$ Docling (converte para Markdown) $\rightarrow$ LLM (extrai o JSON).Custo-benefício: Usar LLMs multimodais (leitura direta da imagem) em escala é caro e arriscado. Usar LLMs apenas para "arrumar" o Markdown é barato, rápido e evita alucinações numéricas.Dica de ouro: Use o LlamaParse se tiver budget; é a ferramenta que melhor resolve células mescladas hoje.

Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Markdown. Tentar limpar JSON de coordenada do Textract é perda de tempo em 2026. Aqui o resumo do resumo:Abandone...

Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Mar... · verdedev11

Extração de dados de PDFs complexos/tabelas: Tesseract e Textract ainda são a única opção? OU A dor de cabeça de estruturar dados de PDFs bancários e Notas Fiscais