Muito obrigado por dedicar seu tempo para coletar os dados e criar o post com experiência real, olhando para isso parece mais um caso de alucinação consensual.
Quando ao revisarem ou debaterem o mesmo problema, concordam entre si sobre uma premissa totalmente errada, validando um erro mútuo.Em sistemas multi-agentes, isso cria uma falsa sensação de segurança.
O usuário assume que, se três I.A.s de ponta revisaram e aprovaram o código, ele está perfeito. Na realidade, elas apenas repetiram o mesmo viés estatístico em cadeia.
O Mecanismo do Erro: Como a I.A. "Engana" a OutraAs I.A.s atuais operam por probabilidade estatística, prevendo a próxima palavra ou token mais adequado com base em bilhões de textos.
Elas não possuem um "modelo mental" do software rodando em tempo real. O erro em cadeia acontece em três etapas:[Código Original com Bug] ──> [Agente 1 aprova / sugere leve alteração] ──> [Agente 2 lê o feedback do Agente 1 e assume como verdade] ──> [Agente 3 consolida o erro] ──> [Resultado: Alucinação Consensual]
Aprovação por Proximidade: O Agente 1 olha o código. A sintaxe está linda, os nomes de variáveis fazem sentido e a estrutura imita códigos corretos da internet. Ele ignora a race condition (que é invisível visualmente) e foca em mudar uma vírgula ou estilo.
Efeito Manada Teconológico: O Agente 2 lê o código e o comentário do Agente 1. Como os modelos compartilham da mesma base de treinamento e vieses, o Agente 2 assume que o raciocínio do Agente 1 está correto e constrói seus próprios argumentos em cima de uma base já furada.
Câmara de Eco: O Agente 3 (ou o agente consolidador) resume os feedbacks. Ele ignora o erro estrutural de fundo porque os agentes anteriores criaram um ruído enorme discutindo coisas superficiais (como os 41% de discordância estética).
Por que elas divergem no óbvio e concordam no erro?
Os agentes discordam muito (41%) em detalhes de forma (estilo de código, documentação, se a função deve ser escrita de um jeito A ou B), porque existem infinitas formas corretas de escrever a mesma coisa na internet.
Porém, elas concordam e silenciam no erro de fundo (race conditions, vazamento de memória, estouro de pilha)
porque esses problemas exigem:
- Raciocínio temporal: Pensar em duas requisições batendo no banco de dados exatamente no mesmo milissegundo.
- Estado dinâmico: Simular a memória do servidor mudando ao longo do tempo.Para a I.A., se o texto do código "parece" um código bom de produção, ela assume que ele é funcional. Se uma erra o diagnóstico de concorrência, as outras duas, usando a mesma lógica probabilística, tendem a cometer exatamente o mesmo erro de julgamento