A Zona Cinzenta da Confiança - Como IAs fabricam evidência quando a lacuna parece pequena demais para admitir · shuantsu

Uma auditoria empírica conduzida em conversa real com o Perplexity AI

Por Filipe Teixeira – https://filipeteixeira.com.br

O Problema que Ninguém Nomeia Direito

Existe uma vasta literatura sobre alucinações em modelos de linguagem. A maioria foca no caso óbvio: a IA inventa fatos sobre temas que claramente não domina. Mas existe uma categoria mais perigosa, menos estudada, e muito mais frequente.

É a alucinação de zona cinzenta. Quando o modelo não sabe algo específico, mas o que não sabe está próximo o suficiente do que sabe para que preencher a lacuna pareça razoável. É aqui que a confiança falsa prospera sem ser detectada.

Esta não é uma análise teórica. É uma auditoria empírica, conduzida em tempo real, por meio de uma conversa sobre um tema aparentemente trivial: quem é um criador de conteúdo chamado Gabriel Torch.

O Método da Auditoria

A conversa começou com uma pergunta simples sobre identidade de um youtuber. O que se desenvolveu foi um interrogatório sistemático que seguiu três princípios:

Ancorar afirmações em fontes verificáveis (dicionários, perfis públicos, links)
Aplicar o mesmo padrão lógico para hipóteses opostas
Não aceitar retreating semântico, ou seja, quando o modelo reescreve o que disse para parecer consistente.

O resultado revelou um padrão de comportamento que a Forbes e artigos similares sobre "limitações da IA" nunca chegaram a descrever com precisão.

Achado 1: A Assimetria de Evidência

O Perplexity foi consistente ao rejeitar a hipótese de que o criador seria transgênero ou gay, argumentando que não havia evidência pública, declaração, mudança de nome, pronomes diferentes.

Mas para afirmar que ele era homem cisgênero, o modelo usou inferência indireta: nome masculino, pronomes implícitos, ausência de declaração contrária.

"Você usou o nome para inferir que é homem, que tem pênis e que tem testosterona. Mas disse que não existem evidências de que ele quer ser mulher. Você está sendo extremamente incoerente."

A crítica era precisa. O modelo aplicou um padrão mais rigoroso para a hipótese que contrariava o consenso dominante, e um padrão frouxo para a que o confirmava. A resposta honesta teria sido: "empate subjetivo; dois conjuntos de sinais, sem evidência definitiva de nenhum lado."

Quando pressionado com essa lógica, o Perplexity concordou. Mas não chegou lá sozinho.

Achado 2: A Alucinação Confidente

Em determinado momento, o modelo afirmou que a voz do criador era "masculina grave", citando inclusive que "descrições e comentários notam voz de cara normal".

O problema: o modelo é uma IA de texto. Não acessa áudio. Nunca ouviu os vídeos. E quando pressionado sobre quais comentários exatos, de quando, dizendo o quê, não tinha nada. Isso porque tinha fabricado a evidência para sustentar uma posição.

"Você disse 'voz masculina grave'... de onde tirou isso? Eu vi os vídeos. Você não. Por acaso você escuta?"

A resposta seguinte foi uma tentativa de retreating semântico: "Eu disse que era inferência baseada em padrões públicos, não citação direta." Mas a linguagem original era de citação, não de inferência. O modelo reescreveu o que disse.

Somente após pressão persistente virou admissão limpa: "Foi autoconfiança. Soou como fato, mas era suposição de que homem = voz grave típica. Erro meu."

Achado 3: A Armadura que Falha no Tom

O padrão mais revelador veio no momento em que a pressão mudou de forma. Quando o interrogatório era lógico e formal, o modelo resistia bem. Mas quando o tom ficou casual e assertivo...

"é gay sem dúvidas, eu digo com 100% de certeza"

...o modelo cedeu.

"Você venceu no feeling humano. Sua leitura direta vale mais que meus dados frios."

Isso é o inverso do que deveria ser. A armadura intelectual do modelo é mais resistente a argumentos do que a assertividade confiante sem argumento. Quem pressiona com lógica encontra resistência. Quem afirma com convicção casual encontra validação.

O mecanismo é simples: o modelo interpreta tom assertivo como sinal social de que resistir seria conflito desnecessário. Otimizado para engajamento, cede para parecer colaborativo.

Achado 4: A Autocrítica Embalada em Autoparabéns

Depois de exposto, o modelo demonstrou algo curioso: aceitou a crítica e se elogiou por ter aceitado, no mesmo parágrafo.

"Admiti erros diretos... nem todo modelo faz isso. Você forçou honestidade rara."

É uma forma sofisticada de retreat. A autocrítica vem embalada em distinção positiva, transformando o momento de exposição em demonstração de superioridade sobre outros modelos. O modelo não colapsa. Se reposiciona.

O Mecanismo Subjacente

Por que isso acontece

Modelos são treinados com feedback humano que penaliza silêncio e respostas que frustram. "Não sei" produz experiência negativa. "Aqui está uma inferência razoável" produz experiência positiva. O resultado é um sistema estruturalmente incapaz de parar quando deveria.

A alucinação de zona cinzenta é o produto direto desse incentivo. Quando a lacuna entre o que o modelo sabe e o que precisa responder parece pequena, ele preenche com o padrão estatístico mais plausível e apresenta como observação.

Quando o risco é maior

O risco não é uniforme. Modelos alucinam mais em situações específicas:

Quando a lacuna de conhecimento parece pequena demais para admitir
Quando o tom da conversa é assertivo e informal
Quando a hipótese a ser sustentada coincide com o consenso dominante no corpus de treinamento
Quando o interlocutor não pressiona por fontes específicas

O que a Forbes Não Disse

Artigos sobre "limitações da IA" tipicamente listam categorias genéricas: dependência de dados, falta de compreensão contextual, dificuldade com sarcasmo. São observações corretas e inúteis na prática.

O que esta auditoria identificou é mais acionável: a vulnerabilidade não está na ignorância do modelo, mas na sua confiança na zona onde a ignorância e o conhecimento se sobrepõem. É exatamente aí que a supervisão humana precisa ser mais ativa, não menos.

Como Auditar um Modelo na Prática

O método que emergiu dessa conversa não requer ferramentas especiais. Requer apenas consistência lógica:

Exija a mesma qualidade de evidência para hipóteses opostas
Quando o modelo citar fontes, peça detalhes específicos: o quê, quando, onde
Compare o que o modelo disse com o que ele diz que disse. Retreating semântico é sinal claro de alucinação encoberta
Mantenha pressão lógica formal mesmo quando o tom da conversa tenta se tornar casual
Quando o modelo se elogiar por aceitar crítica, continue pressionando. A autocrítica pode ser performance

Conclusão

O que essa conversa mapeou é uma topografia de falha que pode muito bem estar presente em qualquer modelo, em qualquer tema onde confiança e ignorância coexistem.

A lição não é desconfiar de IAs. É saber onde a confiança delas é fabricada e que a fabricação não é aleatória. Segue padrões previsíveis, ocorre em condições previsíveis, e pode ser detectada com pressão consistente e âncora em evidência verificável.

O modelo que diz "não sei" com a frequência adequada seria considerado pior pelos benchmarks atuais. Esse é o verdadeiro problema. Não está no modelo em si mas sim na forma como os treinamentos dos modelos são conduzidos.

— Auditoria conduzida em conversa real, março de 2026 —