Claude supera GPT-5, Gemini e Grok em tarefas reais de trabalho, segundo estudo da OpenAI
A OpenAI apresentou o GDPval, um novo método para avaliar o desempenho de modelos de IA em tarefas reais de trabalho, comparando-os com humanos em 44 profissões, que incluem desenvolvedores de software, advogados, enfermeiros e engenheiros mecânicos.
O Claude Opus 4.1 liderou a avaliação com 47,6%, seguido pelo GPT-5 high com 38,8% e pelo o3 high com 34,1%. O GPT-4o obteve o pior desempenho, com 12,4%, ficando atrás do Grok 4 (24,3%) e do Gemini 2.5 Pro (25,5%). O estudo também mostra que o Claude apresentou o melhor desempenho em oito dos nove setores avaliados, incluindo governo, saúde e assistência social.
Entre as tarefas utilizadas nos testes estavam responder por e-mail a um cliente insatisfeito solicitando devolução, otimizar a disposição de mesas em uma feira de primavera e auditar inconsistências de preços em ordens de compra.
O nome GDPval é uma referência ao Produto Interno Bruto (PIB), indicador econômico, e a OpenAI pretende que ele seja amplamente adotado para fundamentar discussões sobre avanços da IA com base em evidências concretas, em vez de especulações.