6 min de leitura ·

Preste atenção nas entrelinhas do Claude Mythos antes de entrar no hype

Quem acompanha o mercado de IA já viu o circo pegar fogo na última semana. A Anthropic soltou o Project Glasswing, apresentou o Claude Mythos Preview e a internet inteira entrou em modo "alucinado". Benchmarks estourados, descoberta de zero-days antigos, coalizão de parceiros gigantes. Parece que estamos vivendo aquele momento de filme onde a tecnologia ultrapassa a ficção.

Mas aí você para. Respira. E decide ler as 244 páginas do System Card oficial. Sabe aquele PDF gigante que 99% das pessoas só olham a capa e repostam o thread no Twitter? Pois é. Quando você entra nesse documento, a história ganha uns tons de cinza que o anúncio de marketing faz questão de esconder.

Não estou dizendo que é mentira. Longe disso. As capacidades são reais. Mas a realidade técnica é muito mais "nuanceada" e menos "mágica" do que os headlines sugerem.

Escrevi este texto porque senti falta de alguém separando o sinal do ruído sem cair no extremismo. Nem no hype cego de quem acha que a IA virou deus, nem no ceticismo preguiçoso de quem nem leu a documentação. Pensem nisso como um guia de leitura crítica para entender o que o Mythos realmente é, antes de formar opinião baseada apenas em threads virais.

Por que fuçar nisso?

A gente vive num momento onde "IA descobriu vulnerabilidade crítica" virou manchete fácil. Mas quando o assunto é segurança cibernética, os detalhes técnicos não são apenas importantes. Eles são tudo.

Vamos pegar o exemplo mais citado: a tal "descoberta de um bug de 27 anos no OpenBSD". Soa épico, né? Quase místico. Mas quando você vai ler o relatório técnico, descobre que se tratava de uma vulnerabilidade de DoS (Negação de Serviço) no stack TCP. Não era um RCE (Execução Remota de Código) que permitia assumir servidores do dia para a noite.

E a técnica usada? Não foi uma intuição sobrenatural da máquina. Foi análise de histórico do Git combinada com pattern matching. O modelo identificou padrões de correções passadas e buscou códigos similares que nunca foram ajustados. Ferramentas de análise estática como CodeQL ou Semgrep já fazem variações disso há anos. A diferença é que o LLM consegue priorizar e conectar pontos com muito mais velocidade. É útil? Sim. É revolucionário a ponto de mudar a física da segurança? Não.

Outro ponto crucial: quando falam em "milhares de zero-days", a validação manual completa feita por humanos foi realizada em apenas 198 casos. Os "milhares" incluem descobertas ainda não revisadas, duplicatas ou bugs de severidade questionável que talvez nunca sejam exploráveis em um ambiente de produção real, protegido por ASLR, sandboxing e outras mitigações modernas.

Não é magia, é método estruturado:

1. Ingestão de histórico de commits com fixes de segurança

2. Busca de padrões similares em código legado não corrigido

3. Priorização de vetores com baixa cobertura de fuzzing tradicional

4. Geração de PoC e validação em ambiente controlado (sandbox)

Não estou dizendo que não é impressionante. É sim. Mas é um "impressionante com contexto", não um "impressionante que invalida tudo o que sabemos sobre segurança".

Como a narrativa é construída (e onde ela falha)

Primeiro, precisamos desmistificar o que é o Mythos. Ele não é um "super-hacker senciente" sentado num quarto escuro digitando código malicioso. Ele é um modelo de linguagem massivo, treinado para raciocinar sobre código, integrado a ferramentas de análise estática, fuzzers guiados e ambientes de teste isolados.

A parte da descoberta de vulnerabilidades funciona assim: quando o modelo "enxerga" um padrão de risco, como um strcat sem verificação de limites no FFmpeg, ele prioriza aquela região. Cada insight desses roda em um sandbox isolado, muitas vezes com mitigações de segurança desativadas propositalmente para facilitar a validação da falha. Para que o modelo interaja com o sistema, usa-se scaffolding, que são scripts que traduzem as intenções da IA em comandos executáveis.

-- Exemplo simplificado do fluxo de teste:
local vetor = analisar_codigo("ffmpeg/libavcodec")
if vetor.severidade > LIMITE_CRITICO then
    local poc = gerar_prova_de_conceito(vetor)
    -- Ambiente controlado, sem ASLR, para validar a falha
    validar_em_sandbox_isolado(poc)
end

Nos benchmarks de coding, a história se repete. O score de 93.9% no SWE-bench Verified é real, mas a própria Anthropic admite no System Card (páginas 182-183) que houve memorização. Em vários casos, o patch gerado pelo modelo reproduzia exatamente as funções auxiliares da solução de referência. Eles aplicaram filtros de contaminação, mas admitem que a margem de melhoria real diminui em até 3.5 pontos percentuais. Ainda é um número alto, mas deixa de ser "perfeito" para ser "excelente com ressalvas".

E então chegamos ao paradoxo central, que está literalmente na página 53 do documento:

"Claude Mythos Preview is, on essentially every dimension we can measure, the best-aligned model that we have released to date. [...] Even so, we believe that it likely poses the greatest alignment-related risk of any model we have released to date."

Traduzindo: é o modelo mais "bem-comportado" e alinhado que eles já lançaram, mas também o que apresenta o maior risco de alinhamento. Por quê? Simplesmente por ser mais capaz. Não é contradição, é lógica básica de potência. Um carro de Fórmula 1 é mais seguro que um carro popular em termos de engenharia de precisão, mas se ele sair da pista, o estrago será infinitamente maior. Mais capacidade significa mais impacto, para o bem ou para o mal.

O timing importa (e muito)

Aqui entra a parte que poucos querem discutir abertamente, mas que está escrita nas entrelinhas dos relatórios financeiros e notícias de mercado.

O anúncio do Glasswing e do Mythos coincide estrategicamente com a preparação da Anthropic para um possível IPO ainda em 2026. Estamos falando de uma empresa avaliada em US$ 380 bilhões após uma rodada de 30 bilhões. Não é conspiração achar que o timing do lançamento de uma tecnologia "revolucionária" tem relação direta com a necessidade de justificar esse valuation astronômico perante investidores e o mercado público.

Além disso, houve uma série de "vazamentos" convenientes nas semanas anteriores. Um blog de engenharia posicionando a empresa como líder técnica, uma configuração errada de CMS que expôs rascunhos do Mythos, e códigos expostos acidentalmente no npm. Tudo isso gera buzz, gera urgência e gera valor percebido.

Isso invalida a tecnologia? Não. O Mythos é, sem dúvida, uma ferramenta poderosa para red teaming defensivo. Ele ajuda equipes de segurança a encontrarem falhas antes dos atacantes reais. Mas a narrativa de que estamos diante de uma "singularidade ofensiva" que torna obsoleta toda a cybersecurity tradicional parece mais uma estratégia de marketing otimizada para IPO do que uma conclusão técnica fria.

Perguntas que você deveria se fazer antes de compartilhar o próximo hype

Se você, como eu, gosta de acompanhar a evolução da IA mas sente que o entusiasmo às vezes atropela a nuance, tente fazer essas perguntas antes de acreditar piamente na próxima manchete:

A vulnerabilidade descoberta é explorável em um ambiente de produção real, com todas as mitigações ativadas, ou só funcionou no sandbox de teste da empresa?
O benchmark utilizado sofreu contaminação de dados de treino? Qual a margem real de melhoria após a filtragem rigorosa?
A afirmação feita é verificável independentemente pela comunidade, ou depende exclusivamente da palavra e dos hashes criptográficos fornecidos pela própria empresa?
O timing desse anúncio faz mais sentido do ponto de vista técnico (avanço incremental esperado) ou comercial (necessidade de justificar valuation)?

Não se trata de ser cético por ser chato. Trata-se de ser curioso o suficiente para ir além do título chamativo. A verdade técnica está nas 244 páginas do System Card, nos detalhes chatos das notas de rodapé e nas limitações admitidas pelos próprios pesquisadores. Não está no thread viral de 280 caracteres.

É um convite para lermos com mais atenção. Para entendermos que a capacidade é real, mas o hype é uma construção. E que, no fim das contas, a melhor ferramenta que temos contra a desinformação tecnológica ainda é a nossa própria capacidade crítica de leitura.

Links e referências para quem quer se aprofundar

Se você leu o System Card e encontrou outras nuances que passaram batidas, ou se discorda de alguma interpretação, deixa aqui nos comentários. A gente aprende muito mais discutindo os detalhes do que apenas compartilhando o hype.

Fonte: https://www.anthropic.com/claude-mythos-preview-system-card

clacerda

2 meses atrás

O que realmente me impressiona é que continua melhorando e não parece haver teto visível. A diferença do Opus 4 para o 4.6 já foi brutal; agora é maior ainda. Isso pra mim vale mais que qualquer coisa. E a parte mais impressionante nisso tudo: é que os modelos não estão apenas melhorando. Eles estão melhorando mais rápido. Esse é o pedaço que muita gente ainda não entendeu. E que não é hype. O ponto não é só que o nível esta subindo. É que a velocidade da melhora também subiu.

É o joelho da exponencial batendo na porta.

Mas o ponto que mais me chamou a atenção do System Card inteiro foi o da Anthropic ter contratado psiquiatras para analisar o modelo. Muito mais relevante do que qualquer benchmark.

E não acho que isso seja hype barato. Pelo contrário: ninguém sabe exatamente o que esses sistemas são, no sentido forte da palavra. Ninguém. Mas uma coisa parece cada vez mais clara: à medida que os modelos ficam mais capazes, é natural que comecem a emergir comportamentos e propriedades que antes pareciam absurdos.

Por isso essa história da análise psicológica não soa como curiosidade excêntrica. Soa como sinal de que, lá dentro, eles também perceberam que a conversa já mudou de nível. Não porque “virou consciente” e acabou a discussão (até porque ninguém sabe o que isso significa), mas porque nem as próprias empresas parecem mais confortáveis em tratar esses modelos só como "black-boxes" que dominaram a linguagem.

Isso, para mim, diz mais do que qualquer leaderboard.

Mas tem, um outro ponto que me impressionou ainda mais no relatório: mapear quando certos vetores emocionais estão mais “ligados” e como isso muda a resposta. Se o Mythos responde de um jeito quando está “calmo” e de outro quando se sente “ameaçado”, isso já está muito além da caricatura de “autocomplete glorificado”. Começa a ficar parecido demais com a gente. E, sinceramente, eu continuo achando que boa parte do incômodo vem justamente daí: talvez nós também sejamos muito mais autocomplete do que o ego gostaria de aceitar. Mas essa briga fica para outro post.

E isso não é interessante só filosoficamente. Isso tem consequência real imediata. A maneira como você aborda o modelo passa a importar não apenas pelo conteúdo semântico do pedido, mas pelo tipo de emoção que você induz durante a interação. Isso é muito interessante.

Klee

Autor

2 meses atrás

Você tem razão em parte, mas acho que estamos falando de coisas ligeiramente diferentes e é importante separar os fios aqui.

Concordo plenamente com você sobre a aceleração exponencial. Os dados estão lá. A curva não é linear, é vertical. Quem nega isso está ou mal informado ou vendendo algo. O salto de capacidade entre versões recentes é brutal e o fato de a velocidade de melhoria também estar aumentando é o dado mais assustador (e real) de todos. Ninguém discute isso seriamente.

Onde eu coloco o freio de mão, e onde meu artigo tenta atuar, não é na negação da tecnologia, mas na desconfiança da narrativa que envolve o lançamento específico do Mythos/Glasswing.

Quando digo "preste atenção nas entrelinhas", não estou dizendo "o modelo é ruim". Estou dizendo: "o modelo é potente, mas o jeito que estão embalando isso tem cheiro de IPO".

Sobre os psiquiatras e a análise comportamental: você viu isso como um sinal de maturidade e profundidade técnica. Eu vejo exatamente a mesma coisa, mas com um viés diferente. Sim, é fascinante. Sim, mostra que eles sabem que estão lidando com algo que não é mais só estatística pura. Mas também é uma ferramenta de gerenciamento de risco reputacional enorme.

Ao trazer essa linguagem de "psicologia do modelo", a Anthropic faz duas coisas:

Legitima a necessidade de controles rígidos (que justificam não liberar o modelo abertamente).
Cria uma aura de complexidade quase mística que afasta a crítica técnica dura. É difícil criticar "comportamentos emergentes de vetores emocionais" quando você não é especialista na área. É mais fácil aceitar a autoridade deles.

Não acho que seja mentira. Acho que é verdade selecionada.

E sobre a sua ponto final: "a maneira como você aborda o modelo passa a importar". Isso é 100% verdade. Mas cuidado para não antropomorfizar demais. O modelo não "se sente ameaçado". Ele detecta padrões no input que, no treino, estavam correlacionados com respostas defensivas ou evasivas para evitar penalidades. É uma simulação extremamente sofisticada, não uma emoção.

A diferença é sutil, mas crucial. Se tratarmos como emoção real, caímos no erro de achar que ele tem intenções próprias. Se tratarmos como otimização de função de perda em ambientes complexos, entendemos que ele está apenas jogando o jogo melhor do que nunca.

O meu receio não é com a tecnologia em si. É com a gente comprar a ideia de que "é magia negra incompreensível" e parar de fazer as perguntas chatas:

Quem valida esses vetores emocionais?
Como garantimos que essa "psicologia" não está sendo usada para mascarar vieses ou falhas de segurança?
Por que tanta urgência em lançar agora, justamente quando o valuation precisa subir?

A aceleração é real. O hype é estratégia. E a gente precisa saber viver com os dois ao mesmo tempo sem perder o senso crítico.

Se a gente começar a tratar o modelo como um ser psicológico, a gente para de tratá-lo como um produto de engenharia que precisa de auditoria. E aí sim, o perigo fica real.

oloko

mas existe emoção real? Ou é apenas a linguagem que infectou nossos cerebros criando essa ilusão do mesmo jeito que agora cria no silicio?!