Como vocês estão escolhendo modelos de IA no fluxo de desenvolvimento? · JoaoZanardo

Queria abrir uma discussão sobre o uso de ferramentas como Claude Code e Codex no dia a dia de desenvolvimento. Antes de tudo, vale deixar claro que o foco deste texto não é discutir o uso de IA em si (pretendo abrir outra publicação para isso), nem como isso tem mudado a dinâmica de trabalho para desenvolvedores. Esse é um debate importante, mas a ideia aqui é outra: falar sobre casos de uso de modelos de IA, escolhas práticas entre eles e como cada um pode fazer mais sentido dependendo do tipo de tarefa.

Atualmente na empresa onde trabalho, temos sido incentivados a acompanhar métricas de uso de IA. Imagino que muitas empresas estejam seguindo esse mesmo movimento de tentar se tornar mais “AI first”. Junto com isso, naturalmente, aparecem novas expectativas: mais produtividade, ciclos mais curtos e squads menores.

Hoje temos acesso principalmente ao Claude Code e ao Codex, e venho testando diferentes modelos em cenários variados. Isso acabou puxando algumas conversas internas com colegas do time sobre como usar melhor essas ferramentas, principalmente quando o assunto é qualidade, contexto, consumo de tokens e escolha do modelo certo para cada etapa.

No meu caso, tenho usado o Claude Opus 4.7 e o GPT-5.5(medium) para etapas de planejamento e escrita de planos técnicos. No nosso fluxo, usamos bastante uma abordagem baseada em SDD (Spec Driven Development), o que acaba exigindo mais detalhamento antes da implementação e, consequentemente, um consumo maior de tokens. Para esse tipo de etapa, percebo que modelos mais fortes ajudam bastante na organização da ideia, na quebra do problema e na antecipação de riscos.

Também tenho usado o Claude Opus 4.7 para revisão de código. Vejo que ele tem olhado bastante para decisões de arquitetura, possíveis inconsistências de padrão de código e pontos que talvez passem despercebidos numa revisão mais rápida. Ainda assim, vejo esse uso como apoio, não como substituto do processo tradicional de review.

Para implementação do plano já escrito, tenho usado mais o Claude Sonnet 4.6. Até agora, tem funcionado bem para transformar um plano técnico em código, fazer ajustes incrementais e iterar em cima da solução. Sinto que usar modelos mais potentes para a escrita do plano têm sido mais eficiente do que usá-los na etapa de desenvolvimento.

Já em casos de discovery, fluxos mais complexos ou quando preciso destrinchar melhor uma solução antes de escrever código, tenho usado GPT-5.5(high/xhigh). Normalmente são situações em que o problema envolve entender um fluxo maior, mapear dependências, avaliar impacto em outras partes do sistema ou desenhar um workflow mais robusto. Para esse tipo de problema tentei o Claude Opus 4.7 e o 4.8 mas ambos consumiram tokens excessivamente.

E esse é um ponto que gostaria de debater. Lembrando que temos modelos mais capazes para determinados cenários, mas que podem consumir muitos tokens. Óbvio que temos sempre que usar a IA como uma ferramenta para nos auxiliar em todo o processo de trabalho, revisão de código e escrita técnica, mas isso não exclui o fluxo de trabalho necessário para garantir toda a qualidade do software. Continua sendo necessário escrevermos bons testes, revisar os resultados de todos os propmts, validar se a regra de negócio foi implementada corretamente, pensar em observabilidade, documentação e responsabilidade técnica sobre aquilo que vai para produção.

Também temos desenvolvido alguns MCPs e skills internos, que têm ajudado bastante no dia a dia. Eles facilitam o acesso a contexto, padronizam alguns fluxos e tornam algumas tarefas mais rápidas. Ao mesmo tempo, tenho percebido que esse tipo de recurso pode aumentar bastante o consumo de tokens, principalmente quando traz muito contexto para uma conversa ou quando entram em fluxos longos demais para problemas que talvez fossem mais simples. Por outro lado, imagino que MCPs e skills bem desenhados também possam ajudar a economizar tokens, principalmente quando conseguem trazer apenas o contexto necessário em vez de jogar um volume grande de informação para dentro da conversa, o que acaba sendo um grande desafio.

A impressão que tenho é que existe um equilíbrio delicado entre dar contexto suficiente para o modelo trabalhar bem e exagerar no volume de informação. Contexto de menos gera respostas genéricas ou erradas. Contexto demais pode deixar tudo mais caro, mais lento e, às vezes, até mais confuso. Talvez parte da habilidade esteja justamente em saber preparar a conversa, dividir o problema e escolher quando vale usar um modelo mais caro ou quando um modelo mais simples já resolve.

Vi também algumas pessoas comentando sobre o uso de ferramentas como o RTK AI para ajudar nesse tipo de controle, principalmente atuando como uma camada para reduzir ruído e otimizar o que chega até o contexto da IA. Ainda não cheguei a testar, mas fiquei curioso para saber se alguém aqui já usou algo parecido na prática, especialmente em ambientes corporativos onde existe preocupação com métricas, custo, governança e padronização de uso.

Por isso deixo aqui a ideia central dessa publicação: como vocês estão escolhendo os modelos no dia a dia? Vocês separam modelos para planejamento, implementação, revisão e discovery? Estão medindo consumo de tokens de alguma forma? MCPs e skills têm compensado no fluxo de vocês? E para quem já está em empresas com uma cultura mais “AI first”, como evitar que o uso de IA vire apenas uma métrica de adoção, em vez de uma melhoria real no processo de desenvolvimento?

Meus 2 cents,

Para acompanhamento do consumo de tokens (entre outros pontos) tenho usado o OmniRoute que eh um AI Gateway (praticamente um proxy para acesso a LLM): a vantagem aqui eh poder acompanhar o que o LLM esta fazendo de fato.
Para escolher/avaliar um LLM tenho usado um projeto de homologacao: com um harness dentro do padrao que uso no dia-a-dia, tenho a spec (PRD, SDD, TDD, Tasks, checklist de aceitacao) de projeto completo que ja conheco o resultado esperado (multi-tenant, RBAC, CRUD, API, etc) e vejo como o LLM em questao resolve o problema e faco avaliacao (consumo de tokens, tempo gasto, valores).

2.1. Independente do objetivo do LLM, uso um metodo de homologacao que seja o mesmo para poder metrificar e comparar resultados: p.ex. se desejo um modelo para PLAN, uso o mesmo harness e prompt de plan para todos os modelos que estou testando. One-shot ? Seria o ideal para medir, pois multiplas interacoes acabam distorcendo muito a metrica. Por outro lado, se o prompt de plan precisa de multiplas interacoes para funcionar, provavelmente tem alguma coisa faltando nele.

2.2. Usar modelos diferentes para cada etapa (plan/coding/tdd/check/etc) ? Sim, uso - ate porque o custo varia. Claude ? Por enquanto tenho evitado o maximo, por custo. Usando GLM, QWEN, Kimi. OpenAI e Gemini so tem me dado dor de cabeca e pouco retorno.

Tambem comecei a usar o HEADROOM para compressao de prompt - ainda nao tenho opiniao fechada
Tambem comecei a usar o ODYSSEUS como AI Workspace - basicamente uma interface para gerenciar o diversos pontos que tenho trabalhado com IA (tem algumas semelhancas ao OmniRoute acima, mas considero complementares)
Tambem comecei a usar o PONYTAIL, basicamente um AGENTS.md que implementa KISS.
Entrou no meu radar o oh-my-openagent
Toda a atividade com IA sempre eh feita dentro de um container sandbox (docker ou lxc) para evitar dissabores

Mas eh uma disciplina em construcao - todo mes tem de reavalizar se algo novo (um modelo, um harness) nao mudou o cenario (por isso ter uma etapa de homologacao sistematizada ajuda um bocado).

Saude e Sucesso !

Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS