Tenho um app windows que extrai dados de certos tipos de arquivos usando expressões regulares.
Agora estou montando um modelo especialista nos arquivos pra não precisar de LLMs. Pelo menos ele consegue se adaptar a pequenas mudanças de layout, coisa que as regex falham silenciosamente. 
Muito boa sua ideia. As LLMs tem um índice de acerto muito baixo, no meu caso, pois os documentos tem as informações bem espalhadas. É preciso analisar, por exemplo, 60 páginas pra recolher uma única linha de tabela final. E quando você multiplica por 200 arquivos de uma vez, aí o negócio desanda.

Sim, trabalhei em uma empresa de investimento pegávamos extratos e documentos de muitos bancos cada um com sua particularidade. A ideia do app é ter suporte para multiplas páginas, já fiz extração com PDF de 30/40 páginas e o resultado foi extremamente satisfatório. Ter o dado já em json sem escrever 2k linhas de código para consumir facilita mt a vida.

Tenho um app windows que extrai dados de certos tipos de arquivos usando expressões regulares. Agora estou montando um modelo especialista nos arquivos pra não precisar de LLMs. Pelo meno...