1 min de leitura ·

OpenAI declara “código vermelho” após Gemini ultrapassar ChatGPT em benchmarks

O CEO da OpenAI, Sam Altman, disse em um memorando interno que a empresa está em estado de “Código Vermelho”, o que significa que todos os outros projetos ficarão em segundo plano para priorizar o ChatGPT.

Segundo fontes próximas ao assunto, Altman afirmou no documento que a OpenAI precisa melhorar a personalização, a velocidade e a confiabilidade do seu modelo de IA principal, além de ampliar a variedade de temas que ele consegue cobrir.

A maior ameaça atual é o Google, que lançou o Gemini 3 no início de novembro e integrou o modelo à maioria de suas plataformas. Segundo reportado no lançamento, o Gemini 3 atingiu a pontuação mais alta já registrada no benchmark Humanity’s Last Exam (37,4, contra 31,64 do GPT-5 Pro). Ele também liderou rankings em benchmarks humanos de satisfação de usuário, como o LMArena.

Por outro lado, a recepção ao último grande lançamento da OpenAI, o GPT-5, em agosto, foi abaixo do esperado.

Informações adicionais: TechCrunch

Fonte: https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-declares-code-red-as-googles-gemini-ai-outpaces-chatgpt-in-industry-benchmarks-report-claims-sam-altman-sets-all-hands-to-the-pump-on-flagship-llm-parks-other-projects

Programmer404

3 meses atrás

Mais uma rodada de narrativas para A ser superior a B e vice versa.

tuboi

3 meses atrás

De nada adianta ser o melhor em performance se o q ele entrega pode ser dados falsos.

Peguei esse post meio q aleatório qndo pesquisei do assunto ontem, e cada um interprete o q achar melhor, pois não levanto bandeiras para IAs, eu busco usar aqueles q resolvem meus problemas e pelo menos por enquanto esse post é o q mais parece.
https://www.instagram.com/p/DRpf0Nzk6AB/
Eu não usava perplexity, mas decidi dar uma chance por causa desse post pra ver se realmente é bom.

Das IAs q usei, atualmente o q mais usei foi o gemini 2.5/3.0. Ela foi a pior q entregou, pois ela alucina demais. Desde a 2.5 já tinha indícios de erros crassos, mas a 3.0 ela bateu o recorde de xingamentos q fiz a IA, kkkkk.

Eu parei de usar o gemini ontem, pq sinceramente tá ruim pacas.

E não precisam concordar comigo, pois nem sempre ela entrega coisas ruins. Mas qndo ela erra, ela erra feio. E pior q a frequência de alucinação parece q aumentou. Então usem e tirem suas próprias conclusões. A minha conclusão é q boa performance não significa necessariamente q ela é boa para usar.

ah, e normalmente eu uso para coisas gerais. Desde programação até assuntos aleatórios q quero pesquisar ou aprender mais. Os erros acontecem principalmente qndo é programação, e com coisas simples msm.

moranguinho

3 meses atrás

Não acho que essa pesquisa possa ser usado para definir taxa de alucinação.

Foi algo muito mais próximo de incapacidade de validar verdade de falso de conteúdos novos, do que alucinação que é quando não sabe a resposta e mesmo assim gera com confiança a resposta. (Simplificando muito o termo, é claro).

Link do artigo na integra:
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

tuboi

3 meses atrás

Bom, não disse q esse post é algo 100% preciso, até pq eu me baseei pelo meu uso e esse post é o q mais pareceu com minha realidade. Por isso disse pra cada um interpretar do jeito q parece, pois não sei como metrificar.

Mas obrigado pela explicação, entendi o q posso ter falhado nas minhas conclusões. Já dei uma olhada por cima do post q vc passou e depois irei ler melhor. Ai eu aprendo mais sobre essa parte tbm.

A unica certeza q tenho é q o gemini até agora foi o pior q já usei, ahahhah.