Executando verificação de segurança...
1

Meus 2 cents: O OCR de texto morreu; o foco agora é Visão Computacional + Markdown. Tentar limpar JSON de coordenada do Textract é perda de tempo em 2026.

Aqui o resumo do resumo:Abandone o OCR puro: Use bibliotecas de Layout Analysis (como Docling ou Marker). Elas tratam a tabela como um objeto visual e entregam um Markdown limpo, não um emaranhado de coordenadas.A "Receita de Bolo": PDF \rightarrow Docling (converte para Markdown) \rightarrow LLM (extrai o JSON).Custo-benefício: Usar LLMs multimodais (leitura direta da imagem) em escala é caro e arriscado. Usar LLMs apenas para "arrumar" o Markdown é barato, rápido e evita alucinações numéricas.Dica de ouro: Use o LlamaParse se tiver budget; é a ferramenta que melhor resolve células mescladas hoje.

Carregando publicação patrocinada...