Nova biblioteca para IA/Agentes/LLM etc BR
Pessoal, para quem trabalha ou pretende trabalhar com LLMs, no feriado fiz uma lib que converte documentos PDF para Markdown, segmentando por página, extraindo alguns elementos relevantes como títulos, imagens, tabelas e inclusive já fazendo a contagem de tokens por página. (AlcheMark)
Algumas vantagens em coparação as concorrentes (Docling e Markitdown):
-
Performance: no meu teste com um arquivo de 500 páginas, foi feita o parse com essa lib em 45 segundos, com Markitdown demorou 90 segundos e com Docling cerca de 3 minutos.
-
Referências: o markitdown ou docling converte o arquivo inteiro em um blocão de markdown sem segmentar por página, tornando mais dificil da LLM referenciar qual foi a página que a informação foi extraída. Essa lib retorna um vetor de objetos, um para cada página.
-
Estimativa de tokens: a lib já mostra a contagem de tokens que cada página tem, assim podendo ter uma previsão melhor de gastos antes de enviar no prompt.
Para esse projeto fiz um ensemble de algumas libs ja existentes, com uma abordagem diferente de tratar os dados.
Quem quiser contribuir ou puder dar uma força deixando uma estrelinha no GitHub: