Post excelente! Sobre esse problema das IAs, a gente percebe isso na prática rápido.
Já tive caso da IA "corrigir" um bug no meu ambiente de desenvolvimento e continuar quebrando em produção. Ela simplesmente mudou o código e declarou vitória sem considerar as nuances de um cenário real aonde os usuários podem ser leigos e até imprevisíveis kkkk
Quando você força primeiro um teste que reproduz o bug, acabou a conversa. Ou passa ou não passa.
No fim das contas o teste vira o único árbitro confiável nesse caos probabilístico das IAs.