Para resolver problemas desse tipo (extração de info de documentos), você ja considerou uma abordagem usando OCR e imagens? O Gemini Flash 2.0 é super barato.
Eu uso isso aqui pra converter PDF em Markdown e funciona bem https://github.com/leodip/pdf-tucano