É uma duvida que também tenho...
Porém pra realmente saber se é hype ou não teria que perguntar pra pessoas que pagam o plano Max do Claude.
Posso estar errado, mas deu a entender no seu post que você fez testes sem estar no plano Max...
Creio que isso muda os resultados pois os servidores devem limitar o tanto de computação empregada nos prompts para planos mais baratos ou para o gratuito.
Naquele caso viral, da engenheira do Google, lembro que ela deixou o agente rodando por cerca de uma hora... e provavelmente ela tava no plano Max (200 dolares por mês, ui)
Vi outros exemplos "fenomenais" pela web, mas em todos eles, o agente ficou rodando por longos minutos, ou até horas...