há um tempo, escrevi um programa para transcrever um webcomic. não é o mesmo que documentos; algumas fontes são desenhadas, não tem tabelas, figuras, cabeçalhos, negritos, itálicos etc. tentei usar tesseract, foi horrível. se não me engano, a taxa de erro era >50% por palavra mesmo após ~meia hora otimizando pré-processamento e configurações.
testei os melhores modelos da época (gemini 2.5 pro, claude sonnet 3.7(?), gpt 4.5 preview) e todos se saíram relativamente mal (1~3 erros por página) salvo um. por algum motivo, provavelmente relacionado a dados sintéticos, o gpt 4.1 mini (sim, o mini dava 10:1 pro principal) era sobre-humano. eu me lembro que a primeira vez que ele transcreveu diferente de mim, eu quem tinha transcrito errado!
por exemplo, essa é a página 35, que é desenhada com um estilo propositalmente difícil de ler e esta é a transcrição do gpt 4.1 mini que, até que eu saiba, contém só um erro (change em vez de strange). mesmo sem nenhum outro modelo na época ter conseguido ler master (que está horrivelmente escrito, nem eu consegui ler da primeira vez) corretamente, trocando por masks.
sobre o preço, 1170 páginas totalizando um pouco mais de 1 bilhão de píxeis, além de experimentos com poucas páginas, me custaram, se não me engano, 2.6 ou 2.8 dólares. mesmo assim, a OpenAI tem um programa de compartilhamento de dados que atualmente oferece 2.5 milhões de tokens grátis diários para o gpt-4.1-mini no meu tier (1).
até hoje, não consegui achar modelos melhores. já testei LLMs específicos para OCR (mistral ocr 1 ou 2, deepseek ocr 1), modelos mais recentes (gpt 5 & cia, gemini 3, claude opus 4, qwen3 vl 235b a22b, deepseek v3.2, kimi k2.5), mas nenhum chegou perto do gpt 4.1 mini para essa tarefa.
como sempre, recomendo que experimente por conta própria já que faz 7 meses e meus dados são diferentes e checar o código fonte.