Meus 2 cents extendidos,
Uma ideia pode ser usar um LLM menor (mais barato/free) para fazer a compactacao de informacao e o LLM maior para fazer o resumo e/ou analise.
Outra ideia eh usar abreviacoes para palavras ou trechos muito repetidos:
https://gist.github.com/jimsrc/46670bd97f1bad0845e0a208e33996c8
https://gist.github.com/VictorTaelin/d293328f75291b23e203e9d9db9bd136
Nos itens acima, utilizam compressao atraves de abreviacoes e passam um "dicionario" de abreviacoes para a LLM saber o que eh cada uma.
Nao sei se funciona no seu caso - mas enfim.