Concordo 100% sobre o caráter probabilístico — e é exatamente por isso que a abordagem em produção não pode depender de uma única caixa.
O que fazemos:
-
Escala em vez de seed único. Cada teste roda contra ~100 caixas Gmail e ~100 Outlook em paralelo, distribuídas em diferentes contas, IPs de coleta e perfis de engajamento. O resultado não é "caiu em INBOX" ou "caiu em SPAM" — é uma distribuição. Medianas e percentis dizem muito mais que um caso isolado. Se 87 de 100 Gmails entregaram em INBOX, isso é um sinal estatisticamente útil; se 50/50, é um sinal completamente diferente.
-
Monitoramento temporal, não snapshot. O check inicial roda imediatamente, mas o sistema repete a verificação em intervalos configuráveis — tipicamente 1h, 6h, 12h, 24h. Provedores movem mensagens entre pastas post-delivery (especialmente Gmail e Outlook), e um email que entrou em INBOX às 10:00 pode estar em SPAM às 16:00 se o engajamento global do remetente cair. Sem essa dimensão temporal você só vê a foto, não o filme.
-
Distribuição por tipo de conta. As 100 caixas Gmail não são iguais — algumas têm histórico de engajamento ativo, outras são "frias". Isso permite estimar o efeito do reputation score do remetente, não só do conteúdo do email.
Honestamente, não conheço outro método que dê um sinal mais confiável dentro das limitações que o SMTP impõe. Tudo o que esteja em cima disso (predição "100% inbox", garantias determinísticas) é vendor marketing, não engenharia.
Se você tiver tempo, gostaria muito de ouvir sua opinião sobre se há algum ângulo que estamos ignorando — especialmente porque sua experiência com SPF-BL e Spamhaus dá uma perspectiva que poucos têm.
PS — sobre em quais provedores focar: mantemos uma análise pública baseada em dados DNS do OpenINTEL (top-1M Tranco, arquivada desde 2016): https://check.live-direct-marketing.online/email-stats/
O que os dados mostram: a cauda é enorme, mas ~5-7 plataformas concentram a maioria do tráfego B2B — Google Workspace, Microsoft 365, Yandex/Mail.ru em mercados CIS, mais alguns ESPs corporativos. Cobrir esses bem vale mais que tentar cobrir 200 superficialmente.