Exato, e o pulo do gato pra mim foi tirar o heartbeat de dentro do próprio agente. Se quem deveria emitir o sinal é o processo que morreu calado, ele não emite nada, e o silêncio engole o alarme junto.
Acabei subindo um cron separado só de vigia, comparando o timestamp do último artefato contra a janela esperada de cada tarefa.
O que ainda me morde é calibrar essa janela: alguns agentes ficam quietos por um motivo legítimo, e achar o limite sem encher de falso positivo é onde eu ainda apanho.