Meus 2 cents,
Parabens pela iniciativa !
Controlar custos com tokens de LLMs eh um dos desafios mais complexos do harness atual.
Repositorio devidamente starreado e forkeado - obrigado por compartilhar !
Por minha vez, tenho utilizado a seguinte estrategia:
1 - O AI Gateway OmniRoute
Ele permite juntar contas de provedores LLM (gemini, claude, chaGPT, openrouter), criar 'combos' para uso, cotas de tokens e acompanhar o uso de um modo geral - alem de diversas funcoes extras. Eh o canivete suico para conexao LLM.
Ele tem uma opcao de usar 'RTK + Caveman' para compressao de contexto/tokens - muito util.
2 - HEADROOM, um proxy de LLM para otimizacao de contexto para situacoes onde o OmniRoute nao pode ou nao faz exatamente o que preciso (local-first).
Existem outros pequenos ajustes de CLAUDE.md/AGENTS.md mas nada do outro mundo.
Saude e Sucesso !
Este post foi favoritado via extensão TABNEWS FAVORITOS
Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS