O que realmente me impressiona é que continua melhorando e não parece haver teto visível. A diferença do Opus 4 para o 4.6 já foi brutal; agora é maior ainda. Isso pra mim vale mais que qualquer coisa. E a parte mais impressionante nisso tudo: é que os modelos não estão apenas melhorando. Eles estão melhorando mais rápido. Esse é o pedaço que muita gente ainda não entendeu. E que não é hype. O ponto não é só que o nível esta subindo. É que a velocidade da melhora também subiu.
É o joelho da exponencial batendo na porta.
Mas o ponto que mais me chamou a atenção do System Card inteiro foi o da Anthropic ter contratado psiquiatras para analisar o modelo. Muito mais relevante do que qualquer benchmark.
E não acho que isso seja hype barato. Pelo contrário: ninguém sabe exatamente o que esses sistemas são, no sentido forte da palavra. Ninguém. Mas uma coisa parece cada vez mais clara: à medida que os modelos ficam mais capazes, é natural que comecem a emergir comportamentos e propriedades que antes pareciam absurdos.
Por isso essa história da análise psicológica não soa como curiosidade excêntrica. Soa como sinal de que, lá dentro, eles também perceberam que a conversa já mudou de nível. Não porque “virou consciente” e acabou a discussão (até porque ninguém sabe o que isso significa), mas porque nem as próprias empresas parecem mais confortáveis em tratar esses modelos só como "black-boxes" que dominaram a linguagem.
Isso, para mim, diz mais do que qualquer leaderboard.
Mas tem, um outro ponto que me impressionou ainda mais no relatório: mapear quando certos vetores emocionais estão mais “ligados” e como isso muda a resposta. Se o Mythos responde de um jeito quando está “calmo” e de outro quando se sente “ameaçado”, isso já está muito além da caricatura de “autocomplete glorificado”. Começa a ficar parecido demais com a gente. E, sinceramente, eu continuo achando que boa parte do incômodo vem justamente daí: talvez nós também sejamos muito mais autocomplete do que o ego gostaria de aceitar. Mas essa briga fica para outro post.

E isso não é interessante só filosoficamente. Isso tem consequência real imediata. A maneira como você aborda o modelo passa a importar não apenas pelo conteúdo semântico do pedido, mas pelo tipo de emoção que você induz durante a interação. Isso é muito interessante.