Mesmo com um projeto bem documentado, o agente tende a pesquisar para entender o todo e não apenas responder a uma pergunta isolada. Isso acontece porque ele foi treinado para escrever código e parte desse trabalho começa justamente pela investigação do contexto.
Por isso, não vejo como produtivo tentar economizar tokens nessa etapa. As pesquisas feitas continuam na janela de contexto (e no cache) e podem alimentar a inteligência do agente durante toda a sessão.
Em sessões longas, constumo ver o Claude, por exemplo, reduzir a pesquisa e ser mais assetivo nas respostas. Em sessões curtas, para pesquisa pontual, vale a pena chamar um modelo menor que use menos raciocínio ou esforço para responder.