A realidade sobre o Mythos/Fable 5: marketing, falsos positivos e custo do retrabalho
Como alguém que pagou pelo Fable 5 e tentou usar em tarefas reais de ponta e de baixo nível, o resultado foi uma droga: travou, não executou corretamente e, quando fez algo, alucinou. Foi aí que fui atrás de estudo sério, talvés a engenharia de software que esta fazendo seja para áreas mais dominantes do modelo, por isso percebeu diferente.
O Agents' Last Exam (ALE) da UC Berkeley — uma das universidades mais respeitadas do mundo em IA, desenvolvido em colaboração com mais de 250 especialistas da indústria e dezenas de instituições (MIT, Stanford, ETH Zurich, Morgan Stanley, JPMorgan Chase, entre outras) — mostra na prática o baixo desempenho do modelo.
https://export.arxiv.org/abs/2606.05405
O paper prova, com dados tabelados:
Fable 5 teve 0% de sucesso nas tarefas mais difíceis (Last-Exam tier) — ou seja, em problemas reais de alta complexidade, entregou zero.
Custo exorbitante: consumiu US$ 2.402 para rodar os testes — o mais caro de todos os modelos avaliados.
Ineficiência total: levou 376 horas para completar tarefas que outros modelos fizeram em muito menos tempo.
Falhas de conhecimento e abordagem: o próprio paper aponta que as principais falhas são falta de conhecimento específico (31%) e estratégia errada (47%) — exatamente o que vi na programação de baixo nível.
E o Mythos (base do Fable 5) na segurança?
Quando o Mythos foi testado no projeto cURL (176 mil linhas de C), o modelo afirmou ter encontrado cinco vulnerabilidades confirmadas. Após análise da equipe do cURL, apenas uma era uma vulnerabilidade real (de baixa severidade). Três eram falsos positivos e uma era um bug simples, sem implicação de segurança. O criador do cURL, Daniel Stenberg, afirmou que o hype em torno do Mythos foi "primariamente marketing" e que não há evidência de que o modelo encontre vulnerabilidades em um grau mais alto do que ferramentas já existentes. Isso significa que 80% do que o Mythos apontou como "vulnerabilidade confirmada" era, na verdade, falso positivo
https://www.theregister.com/security/2026/05/11/anthropics-bug-hunting-mythos-was-greatest-marketing-stunt-ever-says-curl-creator/5238111
A Palo Alto Networks, uma das maiores empresas de cibersegurança do mundo, usou o Mythos e relatou uma taxa média de falsos positivos de cerca de 30%. O CEO Nikesh Arora afirmou que, especificamente com o Mythos, 25% das descobertas de vulnerabilidade eram falsos positivos. A empresa disse que "estar errado 30% das vezes em segurança cibernética é catastrófico" e precisou construir uma infraestrutura especializada para reduzir o ruído.
https://www.inforisktoday.in/palo-alto-networks-sees-ai-boom-driving-firewall-demand-a-31849
A Cloudflare também testou o Mythos e destacou que ele gera um grande número de descobertas especulativas e falsos positivos, particularmente em linguagens não seguras para memória, como C e C++. A empresa afirmou que o modelo tem uma "tendência inerente a relatar excessivamente possíveis problemas", transformando-se de uma ferramenta útil em um fardo de triagem caro para revisores humanos.
O renomado especialista em segurança Bruce Schneier criticou a falta de transparência da Anthropic, que mostrou apenas um "melhores momentos" de sucessos. Ele afirmou que "não sabemos quantas vezes o Mythos sinalizou código incorretamente como vulnerável" e que, sem saber a taxa de falsos alarmes, não é possível dizer se os exemplos mostrados são representativos.
https://www.schneier.com/blog/archives/2026/04/mythos-and-cybersecurity.html
Conclusão
Isso mostra o que realmente se pode esperar do Mythos e, por tabela, do Fable 5: custo alto, retrabalho e confiabilidade questionável. A "% da mentira do modelo" é o custo direto de horas desperdiçadas analisando falsos positivos e corrigindo alucinações.
Um modelo que gera uma enxurrada de falsos positivos não ajuda — ele atrapalha. A própria indústria já está sentindo isso: o projeto cURL encerrou seu programa de bug bounty em 2026 por causa do volume de relatórios falsos gerados por IAs.
https://www.bleepingcomputer.com/news/security/curl-ending-bug-bounty-program-after-flood-of-ai-slop-reports/
Esse problema não é uma exclusividade do novo modelo, mas continua existindo no novo.
Portanto, minha avaliação de que o Fable 5 é uma bosta para tarefas sérias não é opinião isolada — é o que a UC Berkeley publicou em seu benchmark mais rigoroso até hoje e o que os testes de empresas também já estão comprovando, pode ser que melhore com o tempo, mas atualmente é mais hype que qualquer outra coisa.