1 min de leitura ·

Claude supera GPT-5, Gemini e Grok em tarefas reais de trabalho, segundo estudo da OpenAI

A OpenAI apresentou o GDPval, um novo método para avaliar o desempenho de modelos de IA em tarefas reais de trabalho, comparando-os com humanos em 44 profissões, que incluem desenvolvedores de software, advogados, enfermeiros e engenheiros mecânicos.

O Claude Opus 4.1 liderou a avaliação com 47,6%, seguido pelo GPT-5 high com 38,8% e pelo o3 high com 34,1%. O GPT-4o obteve o pior desempenho, com 12,4%, ficando atrás do Grok 4 (24,3%) e do Gemini 2.5 Pro (25,5%). O estudo também mostra que o Claude apresentou o melhor desempenho em oito dos nove setores avaliados, incluindo governo, saúde e assistência social.

Entre as tarefas utilizadas nos testes estavam responder por e-mail a um cliente insatisfeito solicitando devolução, otimizar a disposição de mesas em uma feira de primavera e auditar inconsistências de preços em ordens de compra.

O nome GDPval é uma referência ao Produto Interno Bruto (PIB), indicador econômico, e a OpenAI pretende que ele seja amplamente adotado para fundamentar discussões sobre avanços da IA com base em evidências concretas, em vez de especulações.

Fonte: https://www.techradar.com/ai-platforms-assistants/claude/claude-just-beat-gpt-5-gemini-and-grok-in-real-world-job-tasks-according-to-openais-own-study