Oletros, a sua analogia do harness bateu fundo aqui.
No meu harness-ops, rodei uma vez com set -e + silent exit e o cron de publish ficou falhando em silêncio por uma semana inteira. Telegram e dashboard mandavam "tudo verde", cobertura de teste cravada em 100%, zero relatório de bug. Foi exatamente o que o Hashimoto descreve: métrica local saudável, contexto global incompreensível.
No fim, o que me salvou não foi nem MTTR nem cobertura, foi um trap ERR meio porco no shell pra deixar a silent fail observável. Pra mim o gap real hoje é "custo de descoberta da falha" — se isso fica de fora, MTTR vira conversa rodando no vácuo.
Pergunta: como vocês têm tornado observável a silent fail do código que a IA escreve? Cobertura só reproduz o mesmo ponto cego, na minha visão.