Achei interessante seus pontos e sua proposta, mas tem algo aí que não faz sentido.

Vc disse que prompt caching é irrelevante, mas isso é um erro grosseiro. Usar esse tipo de cache é justamente o que deixa viável o agentic com tool calling. Imagina toda vez pagar o valor cheio de input, sendo que poderia ser apenas uns míseros décimos de centavos? Esse ponto é extremamente crucial para esse benchmark. Aliás, recomendo ter uma comparação palpável com numeros e dados, porque só comparar o preço da API não é uma comparação real.

Pega um prompt complexo, passa para ambos, coloque os problemas, os pontos chaves e o custo em relação a entrega. Vamos ter aqui uma visão muito mais clara da comparação.

Valeu por levantar a discussão e propor sua solução.

Ponto válido e bem colocado; eu generalizei demais ali. O prompt caching da Anthropic de fato muda a conta. O que quis dizer é que para alguns casos frequentes (sessões curtas, código puro, sem pipelines complexos) a ausência do caching não foi determinante. 

Ainda sim, seu ponto contínua válido e bem colocado.

Obrigado pelo feedback!

Achei interessante seus pontos e sua proposta, mas tem algo aí que não faz sentido. Vc disse que prompt caching é irrelevante, mas isso é um erro grosseiro. Usar esse tipo de cache é just...