2

Qual modelo de IA usar para coding em 2026: benchmark real cruzado com preço do Copilot

Um guia baseado no DeepSWE (Mai/2026) e na nova tabela de preços do GitHub Copilot (Jun/2026)

Cruzei os dados do DeepSWE com os preços do GitHub Copilot. O resultado muda o que se assume sobre Claude Opus

Em junho de 2026, o GitHub Copilot migrou a cobrança de “requests por mês” para tokens consumidos. De repente, a escolha do modelo virou uma decisão, além de técnica, financeira real.

Então fiz o que qualquer engenheiro pragmático faria: cruzei os dados de performance do DeepSWE — o benchmark de coding mais rigoroso disponível hoje — com a nova tabela de preços do Copilot. Para o cálculo de custo, usei os tokens de output do DeepSWE e estimei os tokens de input de cada sessão agêntica, aplicando os preços exatos do Copilot para cada provedor — incluindo o custo de cache write da Anthropic, ausente nos custos de API reportados pelo benchmark.

TL;DR: Cinco conclusões

Se você tem dois minutos, estas são as descobertas que este artigo detalha com dados:

  • 01 · Melhor custo-benefício no Copilot. GPT-5.5 [medium] — **4,88 por sucesso.** Não é o modelo mais caro nem o de maior score. É o que resolve mais tarefas por real gasto — 48% de taxa de sucesso a 2,34 por tentativa.
  • 02 · Modo > modelo. O esforço de raciocínio é a maior alavanca de custo. Para o mesmo modelo, trocar de [max] para [medium] pode reduzir o custo por sucesso em até 4×. Configurar o modo certo vale mais do que escolher o modelo certo.
  • 03 · Pior custo-benefício disponível Claude Opus 4.7 [max] — $36,15 por sucesso. 7× mais caro que GPT-5.5 [medium]por tarefa bem-sucedida. Score apenas 6 pontos percentuais maior. O modo [max] da Anthropic cobra caro por thinking tokens invisíveis.
  • 04 · O paradoxo do preço por token. GPT-5.5 paga mais por token, mas usa muito menos tokens. Output a 30/M vs 25/M do Opus 4.8, mas o GPT-5.5 usa menos da metade dos tokens por tarefa. A eficiência de tokens vence o preço por token.
  • 05 · Gemini não é a alternativa que parece. Gemini 3.5 Flash: $26,50/sucesso apesar de barato. O modelo gera 4x mais tokens por tarefa . O custo é alto mesmo com preço por token mais baixo.

Abaixo detalhando como encontramos estes dados.

Por que o SWE-bench não é suficiente

O SWE-bench domina os leaderboards. O problema é que ele foi construído a partir de código já existente, o que cria um risco de contaminação: os modelos podem ter visto as soluções durante o treino.

O DeepSWE resolve isso de um jeito elegante: todas as tasks são inéditas, escritas do zero por engenheiros humanos, e as soluções nunca são mergeadas de volta nos repositórios públicos. As tasks refletem trabalho real de engenharia: prompt médio de 2.158 caracteres, mas a solução de referência exige em média 668 linhas de código em 7 arquivos diferentes.

O resultado é que o DeepSWE separa os modelos com gaps muito maiores do que o SWE-bench. Por exemplo, Claude Sonnet 4.6 de 54% no SWE-bench para 32% no DeepSWE. Isso não é ruído, é o benchmark mostrando o que acontece quando a task é difícil de verdade.

Custo por tarefa bemsucedida no Copilot:

Com a cobrança por token, a pergunta certa não é “qual modelo é melhor?” mas “qual modelo entrega mais resultado por real gasto no Copilot?”

Press enter or click to view image in full size

Custo por sucesso = custo médio por tentativa ÷ taxa de sucesso

Para o cálculo de custo no Copilot: usei os tokens de output reportados pelo DeepSWE, estimei os tokens de input com base nos custos de API, e apliquei a tabela de preços do Copilot para cada provedor.

Para modelos OpenAI e Google, os preços de API são idênticos aos do Copilot, verificado matematicamente. contudo Para Anthropic, o Copilot cobra adicionalmente pelo cache write. um aumento de 10 a 20% nos modelos Anthropic.

O modo importa mais do que o modelo

Esse é o dado mais importante da análise e o que mais vai mudar como você configura seu time.

Press enter or click to view image in full size

Para o mesmo modelo, a diferença de custo/sucesso entre modos pode ser de 4 a 7×. O exemplo mais dramático é o Claude Opus 4.7 no Copilot:

  • [medium]: 32% de score a 2,69/trial → **8,41 por sucesso no Copilot**
  • [high]: 40% a 5,42 → 13,55 por sucesso
  • [xhigh]: 45% a 9,43 → 20,96 por sucesso
  • [max]: 54% a 19,52 → **36,15 por sucesso no Copilot**

Do [medium] ao [max], o score sobe 22 pontos percentuais. O custo por sucesso no Copilot sobe 4,3×.

O caso mais revelador é o Claude Opus 4.8: em [max] e [xhigh] o modelo entrega o mesmo score (58%), mas o [max] custa 14,23 contra 8,60 do [xhigh] no Copilot. Zero benefício adicional por 65% a mais de custo.

Resumindo: você pode rodar Claude Opus 4.7 em modo máximo uma vez no Copilot, ou rodar GPT-5.5 em modo médio 8 vezes pelo mesmo preço — com score muito próximo por tentativa e resultado agregado muito melhor.

O DeepSWE também documenta um comportamento recorrente do Claude Opus: ele tende a esquecer sub-requisitos em prompts com partes paralelas

Ranking de eficiência. custo por tarefa bem-sucedida no Copilot

Top 12 combinações disponíveis no Copilot, com preços reais. Menor = mais eficiente.

Press enter or click to view image in full size

Por que o GPT-5.5 sai mais barato apesar de custar mais por token

Uma contradição aparente nos dados merece atenção direta: o GPT-5.5 cobra **30/M de output** — 20% mais caro que os 25/M do Claude Opus 4.8. Como termina sendo mais barato por tarefa?

A resposta está na eficiência de tokens: quantos tokens o modelo precisa para resolver uma tarefa, independente do preço unitário. O GPT-5.5 termina a mesma tarefa usando menos da metade dos tokens do Opus 4.8.

Press enter or click to view image in full size

  • Cache write (6,25/M): o Copilot cobra para gravar o contexto no cache. Em \[xhigh\], isso adiciona 3,73 por sessão.
  • Thinking tokens ocultos: o raciocínio interno do Claude é cobrado como output, mas não aparece no contador de tokens da resposta. Em [max], somam centenas de milhares de tokens adicionais por sessão.

A lição: preço por token e custo por tarefa são métricas diferentes. Um modelo pode cobrar mais por token e ainda assim ser mais barato por resultado — se for mais eficiente no uso de tokens. É isso que o DeepSWE mede que benchmarks simples não capturam.

. . .

Metodologia: Tokens de output e custos de API do DeepSWE (Datacurve, Mai/2026). Tokens de input estimados por: _input = (custo_api − out×preço_out) / preço_in_. Custos Copilot calculados com preços da tabela oficial do GitHub Copilot (Jun/2026), incluindo custo de cache write Anthropic (taxa efetiva de input: 6,05/M para Opus, 3,63/M para Sonnet, assumindo 60% de cache write e read por sessão agêntica). OpenAI e Google: verificados matematicamente — preço API = preço Copilot.

Carregando publicação patrocinada...
2

com os preços do GitHub Copilot

Copilot tá usando preço de API.

Isso significa que acabou qualquer vantagem de usar.

Recomendo cancelar e aplicar numa assinatura claude max ou codex max que a vantagem será muito maior.

Simplesmente não faz sentido continuar usando copilot.

Sim, falo isso tendo copilot, claude max, codex max e já derreti meu plano mensal de $39 do copilot (em 3 dias)

1

Meus 2 cents,

Ja cancelei meu plano Copilot e por enquanto mantendo o do Antigravity por estar embutido no Google Workspaces - vamos ver ate quando.

O 'zum-zum-zum' que tenho ouvido quando falo com outros gestores de TI eh basicamente o mesmo: a brincadeira ficou cara e nao eh exatamente uma 'brastemp', com a necessidade de DEVs ficarem pajeando a IA/LLM.

Nao que o modelo de desenvolvimento usando IA/LLM vai ser abandonado, mas no minimo esta sendo revisado para ser algo com um custo/beneficio adequado.

Saude e Sucesso !


Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

1

O antigravity eh gratuita no workspace ??? 🫪 Estou impressionado que tem ferramenta free de emprrsa grande ainda. Essa bolha ja estourou faz tempo

1

O antigravity 1 funciona de boa. Para o antigravity 2 existem diversos avisos que o ideal eh usar conta pessoal, apesar da conta coorporativa (workspace) autenticar.

1

eu entendi que O Antigravity não funciona em contas Workspace atualmente. só em contas pessoais do Google.

Para ter acesso na conta da empresa, você precisaria do plano Google AI Ultra para Workspace, que já inclui o Antigravity, mas isso é um plano adicional pago.

1

Nao que o modelo de desenvolvimento usando IA/LLM vai ser abandonado, mas no minimo esta sendo revisado para ser algo com um custo/beneficio adequado.

Jamais, eu mesmo vou continuar usando muito IA, independente do preço.

Eu não tenho fidelidade nenhuma, uma ferramenta ficou cara? troco na hora e vou pra outra.