Executando verificação de segurança...
1

Modelos de IA enfrentam dificuldades para corrigir bugs, segundo Microsoft

O estudo avaliou nove modelos distintos, utilizados como base para um “agente de prompt único” que tinha acesso a diversas ferramentas de depuração, incluindo um depurador Python. O agente foi encarregado de solucionar 300 tarefas de depuração selecionadas do SWE-bench Lite, um benchmark projetado para avaliar a capacidade de depuração em cenários reais de desenvolvimento.

Os resultados indicam que, mesmo com modelos de última geração, o agente raramente conseguiu corrigir mais da metade dos problemas. O Claude 3.7 Sonnet foi o que apresentou o melhor desempenho, com taxa média de sucesso de 48,4%, seguido pelo o1 da OpenAI (30,2%) e pelo o3-mini (22,1%).

Segundo os pesquisadores, parte da limitação se deve à dificuldade dos modelos em utilizar corretamente as ferramentas de depuração disponíveis e em compreender como cada uma delas pode auxiliar na resolução de diferentes tipos de falhas. No entanto, o principal obstáculo estaria na falta de dados que representem “processos de tomada de decisão sequenciais” — ou seja, o raciocínio passo a passo que programadores humanos aplicam durante a depuração de código.

Carregando publicação patrocinada...