1

Claude Chat me fez perder tempo e eu tive que corrigir até a lista de erros dele

Sou Head de Arquitetura de Software, trabalho com IA todos os dias e vivo lendo documentação técnica. Mesmo assim, uma pesquisa simples no Claude virou um ciclo cansativo: eu perguntava, recebia uma resposta super confiante, encontrava erros, corrigia, e a próxima resposta ainda vinha carregando parte do erro anterior.

O que eu queria

Simples: entender o ecossistema de ferramentas AI para TypeScript. Comparar Mastra, Vercel AI SDK, Vercel Workflow SDK e Temporal. Coisas que têm documentação pública, repositórios abertos, posts oficiais.

Não pedi nada obscuro.

O que aconteceu

A cada resposta, o Claude entregava tabelas bem formatadas, conclusões totalmente confiantes e assertivas, recomendações diretas. Parecia sólido.

Não era.

Fui identificando erros um a um. Corrigindo. Ele reconhecia, “ajustava” — e na resposta seguinte ainda carregava o viés da versão errada. Cheguei ao ponto de perguntar diretamente quantos erros ele tinha cometido na conversa. Ele me deu uma lista. Tive que corrigir a lista de erros também.

Isso é desanimador. Era melhor ter ido direto na documentação oficial.

Os erros catalogados (7 confirmados)

(pode pular essa sessão se quiser)

  1. AI SDK Afirmou que AI SDK não tem memória nativa. errado, tem documentação oficial e message persistence
  2. Mesmo após notar o erro, continuou enquadrando o storage como “não nativo”, enviesando a comparação para favorecer o Mastra
  3. Mesma tabela Afirmou que AI SDK não tem embed nativo. errado, tem embed, vector stores e seção dedicada na documentação
  4. Tabela de alternativas workflow SDK e Temporal Classificou Temporal somente como SelfHost, ignorando serviço publico do temporal.
  5. Classificou Vercel Workflow SDK como “não precisa de infra externa, só do seu código”, mas ele precisa da infra da IaaS da Vercel.
  6. Conclusão/recomendação Descartou o Workflow SDK para ambientes GKE com base nos erros anteriores. recomendação inválida
  7. E quando pedi a lista dos erros, ele esqueceu de incluir o erro relacionado ao Temporal. Tive que apontar isso também.

O padrão que incomoda

Não parecia algo aleatório. Os erros seguiam sempre na mesma direção. Dava a impressão de que o Claude montava uma narrativa primeiro e só depois tentava encaixar os fatos. E tudo vinha com o mesmo nível de confiança: tabelas bem feitas, conclusões objetivas e recomendações que pareciam feitas sob medida para o meu contexto.

Isso é perigoso. Já conhecia a ferramenta e sabia “por cima’” que cada uma entregava ou não. IMAGINA se não soubesse? iria confiar cegamente nas recomendações erradas da IA.

Toda ferramenta tem limitações. O problema era a confiança excessiva. Um usuário menos experiente provavelmente teria aceitado tudo como verdade e seguido por um caminho técnico completamente errado.

A comparação que não queria fazer, mas vou fazer

Nunca precisei fazer esse nível de validação usando GPT ou Perplexity para pesquisas técnicas. O Claude parece funcionar muito bem para código, automação e tarefas com contexto bem definido, mas em comparações técnicas que dependem de precisão factual, minha experiência foi bem inconsistente. (mais de uma vez)

No fim, fiquei com a sensação de que é mais rápido ir direto à fonte. Documentação oficial, repositórios e changelogs costumam dar respostas mais confiáveis. as vezes fornecer link da documentação para AI ajudou também. Melhor que gastar tempo conferindo e corrigindo uma IA que responde com muita confiança, mesmo quando está errada.

Modelo usado: sonnet 4.6 thinking, high . busca na web ligada. Escrito após uma sessão real de pesquisa sobre AI tooling para TypeScript. Os erros listados foram identificados e confirmados durante a própria conversa.

Carregando publicação patrocinada...
1

Já percebi coisas do tipo também, em alguns pontos me parece que o modelo foi treinado com documentações antigas e não foi atualizado, e mesmo passando o link da documentação atual é como se ele estivesse preso na definição padrão do seu treinamento.

Várias vezes pedi ao GPT revisar o que o Claude fez e gerar uma lista de críticas, e passo essa lista para o próprio Claude avaliar e corrigir, quase sempre dá certo.

Não dá para confiar cegamente em nenhuma IA, sempre precisamos revisar.