Meta é acusada de manipular benchmarks com lançamento do Llama 4 · NewsletterOficial

A Meta está sendo criticada por supostamente manipular resultados de benchmarks durante o lançamento dos modelos Scout e Maverick, versões do Llama 4 disponibilizadas ao público no último sábado — enquanto o modelo Behemoth segue em fase de treinamento.

Segundo a empresa, os novos modelos superam o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google “em uma ampla variedade de benchmarks amplamente divulgados”.

O Maverick alcançou a segunda colocação no LMArena, plataforma onde humanos comparam respostas de diferentes modelos e votam na melhor. A Meta havia destacado que o Maverick atingiu uma pontuação ELO de 1417, superando o GPT-4o e ficando logo abaixo do Gemini 2.5 Pro. No sistema ELO, pontuações mais altas indicam maior taxa de vitórias em comparações diretas entre modelos.

No entanto, pesquisadores da comunidade de IA descobriram, ao analisar a documentação da própria Meta, que a versão do Maverick avaliada no LMArena não é a mesma oferecida ao público. O material indica que foi utilizada uma “versão experimental de chat”, otimizada especificamente para interações conversacionais.

O LMArena declara que a Meta deveria ter comunicado essa diferença de forma transparente e anunciou mudanças em suas políticas para evitar situações semelhantes no futuro.

Em resposta, a Meta apenas afirma que testa “todos os tipos de variantes customizadas”.