Modelos de programação baseados em IA estariam piorando a cada nova versão
Segundo um experimento amador, versões mais recentes de modelos de programação baseados em inteligência artificial vêm apresentando desempenho inferior quando comparadas a versões anteriores. A principal mudança observada não está no aumento de erros de sintaxe ou de lógica básica, mas no surgimento de falhas silenciosas, que tornam os problemas mais difíceis de identificar.
Modelos mais antigos costumavam gerar código com erros evidentes, como falhas de sintaxe ou exceções claras, que interrompiam a execução e obrigavam o desenvolvedor a investigar o problema. Já modelos mais recentes, como o GPT-5, tendem a produzir código que executa sem erros aparentes, mas entrega resultados incorretos.
A explicação proposta é que o treinamento de assistentes de código passou a usar o comportamento dos próprios usuários como sinal de qualidade. Quando um código sugerido é aceito e executa sem erros, isso é interpretado como um feedback positivo, mesmo que o resultado esteja conceitualmente errado. Com o aumento do número de usuários menos experientes, esse sinal acaba distorcido, já que o código muitas vezes é aceito apenas porque “não quebrou”, e não porque está correto.