A realidade sobre o Mythos/Fable 5: marketing, falsos positivos e custo do re... · macnator

Respondendo a "Calma lá, você chegou a usar o modelo antes do..." dentro da publicação O modelo Fable (Anthropic): a piada do ano

macnator

1 mês atrás

A realidade sobre o Mythos/Fable 5: marketing, falsos positivos e custo do retrabalho

Como alguém que pagou pelo Fable 5 e tentou usar em tarefas reais de ponta e de baixo nível, o resultado foi uma droga: travou, não executou corretamente e, quando fez algo, alucinou. Foi aí que fui atrás de estudo sério, talvés a engenharia de software que esta fazendo seja para áreas mais dominantes do modelo, por isso percebeu diferente.

O Agents' Last Exam (ALE) da UC Berkeley — uma das universidades mais respeitadas do mundo em IA, desenvolvido em colaboração com mais de 250 especialistas da indústria e dezenas de instituições (MIT, Stanford, ETH Zurich, Morgan Stanley, JPMorgan Chase, entre outras) — mostra na prática o baixo desempenho do modelo.

https://export.arxiv.org/abs/2606.05405

O paper prova, com dados tabelados:

Fable 5 teve 0% de sucesso nas tarefas mais difíceis (Last-Exam tier) — ou seja, em problemas reais de alta complexidade, entregou zero.

Custo exorbitante: consumiu US$ 2.402 para rodar os testes — o mais caro de todos os modelos avaliados.

Ineficiência total: levou 376 horas para completar tarefas que outros modelos fizeram em muito menos tempo.

Falhas de conhecimento e abordagem: o próprio paper aponta que as principais falhas são falta de conhecimento específico (31%) e estratégia errada (47%) — exatamente o que vi na programação de baixo nível.

E o Mythos (base do Fable 5) na segurança?

Quando o Mythos foi testado no projeto cURL (176 mil linhas de C), o modelo afirmou ter encontrado cinco vulnerabilidades confirmadas. Após análise da equipe do cURL, apenas uma era uma vulnerabilidade real (de baixa severidade). Três eram falsos positivos e uma era um bug simples, sem implicação de segurança. O criador do cURL, Daniel Stenberg, afirmou que o hype em torno do Mythos foi "primariamente marketing" e que não há evidência de que o modelo encontre vulnerabilidades em um grau mais alto do que ferramentas já existentes. Isso significa que 80% do que o Mythos apontou como "vulnerabilidade confirmada" era, na verdade, falso positivo

https://www.theregister.com/security/2026/05/11/anthropics-bug-hunting-mythos-was-greatest-marketing-stunt-ever-says-curl-creator/5238111

A Palo Alto Networks, uma das maiores empresas de cibersegurança do mundo, usou o Mythos e relatou uma taxa média de falsos positivos de cerca de 30%. O CEO Nikesh Arora afirmou que, especificamente com o Mythos, 25% das descobertas de vulnerabilidade eram falsos positivos. A empresa disse que "estar errado 30% das vezes em segurança cibernética é catastrófico" e precisou construir uma infraestrutura especializada para reduzir o ruído.

https://www.inforisktoday.in/palo-alto-networks-sees-ai-boom-driving-firewall-demand-a-31849

A Cloudflare também testou o Mythos e destacou que ele gera um grande número de descobertas especulativas e falsos positivos, particularmente em linguagens não seguras para memória, como C e C++. A empresa afirmou que o modelo tem uma "tendência inerente a relatar excessivamente possíveis problemas", transformando-se de uma ferramenta útil em um fardo de triagem caro para revisores humanos.

O renomado especialista em segurança Bruce Schneier criticou a falta de transparência da Anthropic, que mostrou apenas um "melhores momentos" de sucessos. Ele afirmou que "não sabemos quantas vezes o Mythos sinalizou código incorretamente como vulnerável" e que, sem saber a taxa de falsos alarmes, não é possível dizer se os exemplos mostrados são representativos.

https://www.schneier.com/blog/archives/2026/04/mythos-and-cybersecurity.html

Conclusão

Isso mostra o que realmente se pode esperar do Mythos e, por tabela, do Fable 5: custo alto, retrabalho e confiabilidade questionável. A "% da mentira do modelo" é o custo direto de horas desperdiçadas analisando falsos positivos e corrigindo alucinações.

Um modelo que gera uma enxurrada de falsos positivos não ajuda — ele atrapalha. A própria indústria já está sentindo isso: o projeto cURL encerrou seu programa de bug bounty em 2026 por causa do volume de relatórios falsos gerados por IAs.

https://www.bleepingcomputer.com/news/security/curl-ending-bug-bounty-program-after-flood-of-ai-slop-reports/

Esse problema não é uma exclusividade do novo modelo, mas continua existindo no novo.

Portanto, minha avaliação de que o Fable 5 é uma bosta para tarefas sérias não é opinião isolada — é o que a UC Berkeley publicou em seu benchmark mais rigoroso até hoje e o que os testes de empresas também já estão comprovando, pode ser que melhore com o tempo, mas atualmente é mais hype que qualquer outra coisa.

Silva97

1 mês atrás

Você compartilhou 5 links. 3 deles são críticas diretas ao Mythos, 1 deles é uma crítica geral à AI slop e somente 1 é neutro. Sem querer ofender ninguém, mas me parece desonestidade intelectual (e das grandes) uma pessoa responder à isso focando só no que é neutro e ignorando todo o resto. Colocando em porcentagem, a pessoa ignorou 80% da questão e focou nos 20% que lhe convém.

Vale lembrar que supostamente o Mythos seria absurdamente melhor que o Fable. Então críticas ao Mythos são críticas ao Fable, que é uma versão limitada do primeiro.

Agora, falando especificamente sobre o primeiro artigo. É importante destacar que artigo científico deve ter teor neutro e não crítico, pois o objetivo de um artigo científico é divulgar resultados de uma pesquisa e não criticar nada nem ninguém. Então é óbvio que o artigo não irá indicar diretamente falta de qualidade em nenhum dos modelos testados.

Mas os dados estão lá:

Página 8, tabela 1, mostra o GPT-5.5 tendo pontuação significamente melhor que o Fable, por um custo muito menor e terminando a tarefa na metade do tempo.
Página 9 mostra o GPT-5.5 com resultados melhores ou quase idênticos em todas as áreas. Exceto agricultura e meio ambiente, sendo a única área que o Fable realmente se saiu significamente melhor.
Página 37 mostra que o GPT-5.5 custou $326 e teve uma pontuação de 45.8% e o Fable custou $2.402 e pontuou 40.5%. Pontuação significamente menor e custo muito maior.

Os dados estão no artigo. Quem é proficientemente alfabetizado e consegue interpretar dados, vê claramente: O Fable é muito mais caro e significamente pior que o GPT 5.5.

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

clacerda

1 mês atrás

Então, dizer que o Fable é uma bosta é uma conclusão plenamente justificada pelos resultados da pesquisa.

Olhar para o segundo melhor modelo do benchmark e carimbá-lo como 'bosta' é forçar uma narrativa emocional que os próprios dados você trouxe para a discussão simplemente não sustentam!!! Preço abusivo, talvez. Marketing exagerado, com certeza. Mas não confunda as coisas.

Conteúdo excluído

clacerda

1 mês atrás

Beleza, se o seu ponto agora é sobre a sua opinião pessoal...

Minha única divergência lá atrás foi quando o colega afirmou que 'o paper prova... que o Fable 5 é uma bosta'.

macnator

Autor

1 mês atrás

entendi seu ponto, então reformulando é uma bosta para o que eu quero fazer :D

clacerda

1 mês atrás

HAHAHAHA!!!! Mais uma vez, você está misturando completamente as coisas.

Você sequer leu o artigo que acabou de citar???? Aonde o paper mostra que o Fable 5 é uma bosta para tarefas sérias????

Enfim, não vou ficar discutindo com o seu prompt do DeepSeek. Você claramente virou o próprio 'papagaio estocástico', repetindo o que copiou da IA, sem ter a capacidade ou o trabalho de verificar, validar e compreender o que esta dizendo.