Qual modelo de IA usar para coding em 2026: benchmark real cruzado com preço do Copilot · danieldia

Um guia baseado no DeepSWE (Mai/2026) e na nova tabela de preços do GitHub Copilot (Jun/2026)

Cruzei os dados do DeepSWE com os preços do GitHub Copilot. O resultado muda o que se assume sobre Claude Opus

Em junho de 2026, o GitHub Copilot migrou a cobrança de “requests por mês” para tokens consumidos. De repente, a escolha do modelo virou uma decisão, além de técnica, financeira real.

Então fiz o que qualquer engenheiro pragmático faria: cruzei os dados de performance do DeepSWE — o benchmark de coding mais rigoroso disponível hoje — com a nova tabela de preços do Copilot. Para o cálculo de custo, usei os tokens de output do DeepSWE e estimei os tokens de input de cada sessão agêntica, aplicando os preços exatos do Copilot para cada provedor — incluindo o custo de cache write da Anthropic, ausente nos custos de API reportados pelo benchmark.

TL;DR: Cinco conclusões

Se você tem dois minutos, estas são as descobertas que este artigo detalha com dados:

01 · Melhor custo-benefício no Copilot. GPT-5.5 [medium] — ** $4,88 por sucesso.** Não é o modelo mais caro nem o de maior score. É o que resolve mais tarefas por real gasto — 48% de taxa de sucesso a$ 2,34 por tentativa.
02 · Modo > modelo. O esforço de raciocínio é a maior alavanca de custo. Para o mesmo modelo, trocar de [max] para [medium] pode reduzir o custo por sucesso em até 4×. Configurar o modo certo vale mais do que escolher o modelo certo.
03 · Pior custo-benefício disponível Claude Opus 4.7 [max] — $36,15 por sucesso. 7× mais caro que GPT-5.5 [medium]por tarefa bem-sucedida. Score apenas 6 pontos percentuais maior. O modo [max] da Anthropic cobra caro por thinking tokens invisíveis.
04 · O paradoxo do preço por token. GPT-5.5 paga mais por token, mas usa muito menos tokens. Output a $30/M vs$ 25/M do Opus 4.8, mas o GPT-5.5 usa menos da metade dos tokens por tarefa. A eficiência de tokens vence o preço por token.
05 · Gemini não é a alternativa que parece. Gemini 3.5 Flash: $26,50/sucesso apesar de barato. O modelo gera 4x mais tokens por tarefa . O custo é alto mesmo com preço por token mais baixo.

Abaixo detalhando como encontramos estes dados.

Por que o SWE-bench não é suficiente

O SWE-bench domina os leaderboards. O problema é que ele foi construído a partir de código já existente, o que cria um risco de contaminação: os modelos podem ter visto as soluções durante o treino.

O DeepSWE resolve isso de um jeito elegante: todas as tasks são inéditas, escritas do zero por engenheiros humanos, e as soluções nunca são mergeadas de volta nos repositórios públicos. As tasks refletem trabalho real de engenharia: prompt médio de 2.158 caracteres, mas a solução de referência exige em média 668 linhas de código em 7 arquivos diferentes.

O resultado é que o DeepSWE separa os modelos com gaps muito maiores do que o SWE-bench. Por exemplo, Claude Sonnet 4.6 de 54% no SWE-bench para 32% no DeepSWE. Isso não é ruído, é o benchmark mostrando o que acontece quando a task é difícil de verdade.

Custo por tarefa bemsucedida no Copilot:

Com a cobrança por token, a pergunta certa não é “qual modelo é melhor?” mas “qual modelo entrega mais resultado por real gasto no Copilot?”

Press enter or click to view image in full size

Custo por sucesso = custo médio por tentativa ÷ taxa de sucesso

Para o cálculo de custo no Copilot: usei os tokens de output reportados pelo DeepSWE, estimei os tokens de input com base nos custos de API, e apliquei a tabela de preços do Copilot para cada provedor.

Para modelos OpenAI e Google, os preços de API são idênticos aos do Copilot, verificado matematicamente. contudo Para Anthropic, o Copilot cobra adicionalmente pelo cache write. um aumento de 10 a 20% nos modelos Anthropic.

O modo importa mais do que o modelo

Esse é o dado mais importante da análise e o que mais vai mudar como você configura seu time.

Press enter or click to view image in full size

Para o mesmo modelo, a diferença de custo/sucesso entre modos pode ser de 4 a 7×. O exemplo mais dramático é o Claude Opus 4.7 no Copilot:

[medium]: 32% de score a $2,69/trial \to **$ 8,41 por sucesso no Copilot**
[high]: 40% a $5,42 \to$ 13,55 por sucesso
[xhigh]: 45% a $9,43 \to$ 20,96 por sucesso
[max]: 54% a $19,52 \to **$ 36,15 por sucesso no Copilot**

Do [medium] ao [max], o score sobe 22 pontos percentuais. O custo por sucesso no Copilot sobe 4,3×.

O caso mais revelador é o Claude Opus 4.8: em [max] e [xhigh] o modelo entrega o mesmo score (58%), mas o [max] custa $14,23 contra$ 8,60 do [xhigh] no Copilot. Zero benefício adicional por 65% a mais de custo.

Resumindo: você pode rodar Claude Opus 4.7 em modo máximo uma vez no Copilot, ou rodar GPT-5.5 em modo médio 8 vezes pelo mesmo preço — com score muito próximo por tentativa e resultado agregado muito melhor.

O DeepSWE também documenta um comportamento recorrente do Claude Opus: ele tende a esquecer sub-requisitos em prompts com partes paralelas

Ranking de eficiência. custo por tarefa bem-sucedida no Copilot

Top 12 combinações disponíveis no Copilot, com preços reais. Menor = mais eficiente.

Press enter or click to view image in full size

Por que o GPT-5.5 sai mais barato apesar de custar mais por token

Uma contradição aparente nos dados merece atenção direta: o GPT-5.5 cobra ** $30/M de output** — 20% mais caro que os$ 25/M do Claude Opus 4.8. Como termina sendo mais barato por tarefa?

A resposta está na eficiência de tokens: quantos tokens o modelo precisa para resolver uma tarefa, independente do preço unitário. O GPT-5.5 termina a mesma tarefa usando menos da metade dos tokens do Opus 4.8.

Press enter or click to view image in full size

Cache write ( $6,25/M): o Copilot cobra para gravar o contexto no cache. Em \[xhigh\], isso adiciona$ 3,73 por sessão.
Thinking tokens ocultos: o raciocínio interno do Claude é cobrado como output, mas não aparece no contador de tokens da resposta. Em [max], somam centenas de milhares de tokens adicionais por sessão.

A lição: preço por token e custo por tarefa são métricas diferentes. Um modelo pode cobrar mais por token e ainda assim ser mais barato por resultado — se for mais eficiente no uso de tokens. É isso que o DeepSWE mede que benchmarks simples não capturam.

. . .

Metodologia: Tokens de output e custos de API do DeepSWE (Datacurve, Mai/2026). Tokens de input estimados por: _input = (custo_api − out×preço_out) / preço_in_. Custos Copilot calculados com preços da tabela oficial do GitHub Copilot (Jun/2026), incluindo custo de cache write Anthropic (taxa efetiva de input: $6,05/M para Opus,$ 3,63/M para Sonnet, assumindo 60% de cache write e read por sessão agêntica). OpenAI e Google: verificados matematicamente — preço API = preço Copilot.