Meus 2 cents, Para acompanhamento do consumo de tokens (entre outros pontos)... · Oletros

Meus 2 cents,

Para acompanhamento do consumo de tokens (entre outros pontos) tenho usado o OmniRoute que eh um AI Gateway (praticamente um proxy para acesso a LLM): a vantagem aqui eh poder acompanhar o que o LLM esta fazendo de fato.
Para escolher/avaliar um LLM tenho usado um projeto de homologacao: com um harness dentro do padrao que uso no dia-a-dia, tenho a spec (PRD, SDD, TDD, Tasks, checklist de aceitacao) de projeto completo que ja conheco o resultado esperado (multi-tenant, RBAC, CRUD, API, etc) e vejo como o LLM em questao resolve o problema e faco avaliacao (consumo de tokens, tempo gasto, valores).

2.1. Independente do objetivo do LLM, uso um metodo de homologacao que seja o mesmo para poder metrificar e comparar resultados: p.ex. se desejo um modelo para PLAN, uso o mesmo harness e prompt de plan para todos os modelos que estou testando. One-shot ? Seria o ideal para medir, pois multiplas interacoes acabam distorcendo muito a metrica. Por outro lado, se o prompt de plan precisa de multiplas interacoes para funcionar, provavelmente tem alguma coisa faltando nele.

2.2. Usar modelos diferentes para cada etapa (plan/coding/tdd/check/etc) ? Sim, uso - ate porque o custo varia. Claude ? Por enquanto tenho evitado o maximo, por custo. Usando GLM, QWEN, Kimi. OpenAI e Gemini so tem me dado dor de cabeca e pouco retorno.

Tambem comecei a usar o HEADROOM para compressao de prompt - ainda nao tenho opiniao fechada
Tambem comecei a usar o ODYSSEUS como AI Workspace - basicamente uma interface para gerenciar o diversos pontos que tenho trabalhado com IA (tem algumas semelhancas ao OmniRoute acima, mas considero complementares)
Tambem comecei a usar o PONYTAIL, basicamente um AGENTS.md que implementa KISS.
Entrou no meu radar o oh-my-openagent
Toda a atividade com IA sempre eh feita dentro de um container sandbox (docker ou lxc) para evitar dissabores

Mas eh uma disciplina em construcao - todo mes tem de reavalizar se algo novo (um modelo, um harness) nao mudou o cenario (por isso ter uma etapa de homologacao sistematizada ajuda um bocado).

Saude e Sucesso !

Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS