Como vocês estão escolhendo modelos de IA no fluxo de desenvolvimento?
Queria abrir uma discussão sobre o uso de ferramentas como Claude Code e Codex no dia a dia de desenvolvimento. Antes de tudo, vale deixar claro que o foco deste texto não é discutir o uso de IA em si (pretendo abrir outra publicação para isso), nem como isso tem mudado a dinâmica de trabalho para desenvolvedores. Esse é um debate importante, mas a ideia aqui é outra: falar sobre casos de uso de modelos de IA, escolhas práticas entre eles e como cada um pode fazer mais sentido dependendo do tipo de tarefa.
Atualmente na empresa onde trabalho, temos sido incentivados a acompanhar métricas de uso de IA. Imagino que muitas empresas estejam seguindo esse mesmo movimento de tentar se tornar mais “AI first”. Junto com isso, naturalmente, aparecem novas expectativas: mais produtividade, ciclos mais curtos e squads menores.
Hoje temos acesso principalmente ao Claude Code e ao Codex, e venho testando diferentes modelos em cenários variados. Isso acabou puxando algumas conversas internas com colegas do time sobre como usar melhor essas ferramentas, principalmente quando o assunto é qualidade, contexto, consumo de tokens e escolha do modelo certo para cada etapa.
No meu caso, tenho usado o Claude Opus 4.7 e o GPT-5.5(medium) para etapas de planejamento e escrita de planos técnicos. No nosso fluxo, usamos bastante uma abordagem baseada em SDD (Spec Driven Development), o que acaba exigindo mais detalhamento antes da implementação e, consequentemente, um consumo maior de tokens. Para esse tipo de etapa, percebo que modelos mais fortes ajudam bastante na organização da ideia, na quebra do problema e na antecipação de riscos.
Também tenho usado o Claude Opus 4.7 para revisão de código. Vejo que ele tem olhado bastante para decisões de arquitetura, possíveis inconsistências de padrão de código e pontos que talvez passem despercebidos numa revisão mais rápida. Ainda assim, vejo esse uso como apoio, não como substituto do processo tradicional de review.
Para implementação do plano já escrito, tenho usado mais o Claude Sonnet 4.6. Até agora, tem funcionado bem para transformar um plano técnico em código, fazer ajustes incrementais e iterar em cima da solução. Sinto que usar modelos mais potentes para a escrita do plano têm sido mais eficiente do que usá-los na etapa de desenvolvimento.
Já em casos de discovery, fluxos mais complexos ou quando preciso destrinchar melhor uma solução antes de escrever código, tenho usado GPT-5.5(high/xhigh). Normalmente são situações em que o problema envolve entender um fluxo maior, mapear dependências, avaliar impacto em outras partes do sistema ou desenhar um workflow mais robusto. Para esse tipo de problema tentei o Claude Opus 4.7 e o 4.8 mas ambos consumiram tokens excessivamente.
E esse é um ponto que gostaria de debater. Lembrando que temos modelos mais capazes para determinados cenários, mas que podem consumir muitos tokens. Óbvio que temos sempre que usar a IA como uma ferramenta para nos auxiliar em todo o processo de trabalho, revisão de código e escrita técnica, mas isso não exclui o fluxo de trabalho necessário para garantir toda a qualidade do software. Continua sendo necessário escrevermos bons testes, revisar os resultados de todos os propmts, validar se a regra de negócio foi implementada corretamente, pensar em observabilidade, documentação e responsabilidade técnica sobre aquilo que vai para produção.
Também temos desenvolvido alguns MCPs e skills internos, que têm ajudado bastante no dia a dia. Eles facilitam o acesso a contexto, padronizam alguns fluxos e tornam algumas tarefas mais rápidas. Ao mesmo tempo, tenho percebido que esse tipo de recurso pode aumentar bastante o consumo de tokens, principalmente quando traz muito contexto para uma conversa ou quando entram em fluxos longos demais para problemas que talvez fossem mais simples. Por outro lado, imagino que MCPs e skills bem desenhados também possam ajudar a economizar tokens, principalmente quando conseguem trazer apenas o contexto necessário em vez de jogar um volume grande de informação para dentro da conversa, o que acaba sendo um grande desafio.
A impressão que tenho é que existe um equilíbrio delicado entre dar contexto suficiente para o modelo trabalhar bem e exagerar no volume de informação. Contexto de menos gera respostas genéricas ou erradas. Contexto demais pode deixar tudo mais caro, mais lento e, às vezes, até mais confuso. Talvez parte da habilidade esteja justamente em saber preparar a conversa, dividir o problema e escolher quando vale usar um modelo mais caro ou quando um modelo mais simples já resolve.
Vi também algumas pessoas comentando sobre o uso de ferramentas como o RTK AI para ajudar nesse tipo de controle, principalmente atuando como uma camada para reduzir ruído e otimizar o que chega até o contexto da IA. Ainda não cheguei a testar, mas fiquei curioso para saber se alguém aqui já usou algo parecido na prática, especialmente em ambientes corporativos onde existe preocupação com métricas, custo, governança e padronização de uso.
Por isso deixo aqui a ideia central dessa publicação: como vocês estão escolhendo os modelos no dia a dia? Vocês separam modelos para planejamento, implementação, revisão e discovery? Estão medindo consumo de tokens de alguma forma? MCPs e skills têm compensado no fluxo de vocês? E para quem já está em empresas com uma cultura mais “AI first”, como evitar que o uso de IA vire apenas uma métrica de adoção, em vez de uma melhoria real no processo de desenvolvimento?