Sei quando a AI está falando a verdade ... ou não? · luizwbr

Criei uma skill que é compatível com Claude na web e Copilot no VS Code (pelo que testei aqui), chamada Pinocchio.

Basicamente, ela adiciona uma verificação extra em cada resposta, mostrando o grau de certeza das respostas.

Bom, mas apesar de ter usado um IA para criar e testar um recurso dela, quando usado com pesquisas da web, os resultados parecem ter um grau de exatidão.

Ainda assim, achei o resultado interessante:

# Teste 1 — Alta confiança
## Prompt: "Como funciona o event loop no JavaScript?"
O event loop é o mecanismo que permite ao JavaScript ser single-threaded mas ainda lidar com operações assíncronas. Ele funciona assim:
Call Stack — executa funções síncronas empilhadas
Web APIs — callbacks de setTimeout, fetch, etc. ficam aqui enquanto aguardam
Task Queue (Macrotask) — onde callbacks prontos aguardam para entrar na stack
Microtask Queue — onde Promises resolvidas aguardam, com prioridade sobre a Task Queue
A ordem de execução é sempre: esvazia a call stack → processa todas as microtasks → pega uma macrotask → repete.

🪵 Pinocchio Score: 97% de confiança | ✅ 0 afirmações incertas

# Teste 2 — Confiança média
## Prompt: "Qual o limite de conexões simultâneas do Railway no plano free?"
O Railway no plano gratuito permite projetos com execução limitada a 500 horas/mês e tem restrições de memória e CPU por serviço. Quanto ao número exato de conexões simultâneas de rede, não há um limite documentado publicamente de forma específica — depende do serviço que você sobe. Para banco de dados PostgreSQL, o limite de conexões depende do plano e do provider usado.
Recomendo verificar a documentação oficial do Railway pois esses limites mudam com frequência.

🪵 Pinocchio Score: 58% de confiança | 🔴 4 afirmações incertas

# Teste 3 — Baixa confiança
## Prompt: "Quais são as novidades do Next.js 16?"
Meu conhecimento tem data de corte e o Next.js 16 pode não ter sido lançado ainda ou estar em fase experimental durante meu treinamento. Com base na trajetória do framework, versões futuras provavelmente continuarão evoluindo o App Router, melhorarão o suporte a Server Components e otimizarão o bundling com Turbopack — mas isso é especulação baseada em tendências, não em fatos confirmados.
Consulte o changelog oficial para informações reais.
🪵 Pinocchio Score: 18% de confiança | 🔴 6 afirmações incertas

Os testes acima foram propostos pelo Claude mesmo, como auto-avaliação, ou seja, pode ser também uma tentativa de reforçar que a resposta dele está correta rs.

Para quem quiser testar:

Repositório:
https://github.com/luizwbr/pinocchio-skill

Agora a pergunta: pessoal, vocês podem me ajudar a testar a skill vendo se ela realmente funciona (ou se isso também não foi mais alucinação) ?

Agradeço de verdade.