Modelos o3 e o4-mini da OpenAI apresentam maior taxa de alucinação, segundo a própria empresa
Testes internos da OpenAI indicam que os modelos o3 e o4-mini, voltados para tarefas de raciocínio, apresentam uma frequência maior de alucinações em comparação com versões anteriores, como o1-mini, o3-mini e o GPT-4o.
Apesar de demonstrarem desempenho superior em áreas como programação e matemática, esses modelos também geram mais afirmações no geral — o que resulta tanto em mais respostas corretas quanto em mais erros e informações falsas.
No benchmark interno da OpenAI, o PersonQA, utilizado para avaliar o conhecimento dos modelos sobre pessoas, o o4-mini alucinou em 48% das respostas, seguido pelo o3 (33%), o o1 (16%) e o o3-mini (14,8%).
Um relatório independente conduzido pelo laboratório de pesquisa Transluce — cujo pesquisador é um ex-funcionário da OpenAI — também identificou que, em um dos testes, o modelo o3 afirmou ter executado um código em um MacBook Pro de 2021 “fora do ChatGPT” e copiado os resultados para a resposta. Embora o modelo tenha acesso a algumas ferramentas, ele não possui a capacidade de realizar esse tipo de ação.
Uma das estratégias para aumentar a precisão dos modelos é a integração com mecanismos de busca na web. Segundo a OpenAI, o GPT-4o com acesso à web alcança 90% de acurácia no benchmark SimpleQA, o que demonstra o potencial dessa abordagem para reduzir alucinações em tarefas de raciocínio.