760k requisições depois — o que GA e Plausible não te mostram sobre seu próprio site
Faz uns 3 meses comecei a rodar um analytics server-side em 22 sites WordPress (alguns meus, outros de clientes). A motivação foi simples:
cansei de olhar Google Analytics e Plausible e ver números que não batiam com o que o servidor estava efetivamente respondendo.
Hoje, com 760 mil requisições capturadas, posso afirmar três coisas que ferramentas baseadas em pixel JS escondem por design:
1. Bots de IA já são uma fatia visível e identificável do tráfego
Dos ~15 mil hits de crawlers de IA capturados (lifetime):
- OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User): 78,6%
- Amazonbot: 9,3%
- ByteDance (Bytespider): 7,9%
- Meta (FacebookExternalHit/Meta-ExternalAgent): 2,7%
- ClaudeBot (Anthropic): 1,5%
- PerplexityBot: 1 hit em 21 dias
Esse dado é invisível no GA porque User-Agent de crawler é filtrado pré-relatório. Pra quem produz conteúdo em 2026, saber qual IA está lendo seu site importa — é o próximo "Google Search Console" do mercado de SEO.
2. ~12% do tráfego total é atacante automatizado
Em 760k requisições, ~89,5k foram identificadas como atacante (sqlmap, wpscan, nuclei, wp-login brute-force, path probing tipo /-/-/-/-/). Nem Wordfence nem o Cloudflare gratuito mostram isso de forma agregada por canal. Pra quem hospeda WP com plugins lentos esse é o overhead invisível que está estragando seu TTFB.
3. Web Vitals real (RUM) ≠ Lighthouse local
Coletando LCP/INP/CLS de visitantes reais e cruzando com o segmento (humano vs bot vs IA) os números mudam drasticamente. Lighthouse roda em condição ideal, RUM mostra realidade — incluindo Brasil com sua heterogeneidade de banda e dispositivo.
O técnico (pra quem se interessa)
A coleta usa três caminhos complementares:
- Pixel JS injetado no
<head>(async, 2KB) → captura humanos - Plugin WP dispara beacon em
shutdownaction viafastcgi_finish_request()→ captura requisições que o pixel JS nunca veria (REST API, XML-RPC, admin-ajax, brute-force em wp-login.php) - (Roadmap) Cloudflare Worker pra sites em edge sem PHP
Stack é PHP vanilla (sem framework, sem Composer), MariaDB com partições mensais por timestamp, agregação horária via cron.
Roda em OpenLiteSpeed + CyberPanel. Custo de infra abaixo de R$ 200/mês até alguns milhões de eventos/mês.
Plugin do WordPress é GPLv2 open source:
https://wordpress.org/plugins/syswp-radar/
Por que estou publicando isso
Construí esse sistema porque eu mesmo precisava — sou desenvolvedor solo, não startup com round. Achei que valia compartilhar os números reais antes que virassem "case de venture-backed analytics startup".
O SaaS chama Radar (radar.syswp.com.br), tem plano free permanente. Quem rodar nos próprios sites e quiser comparar com o que mostro aqui, fico curioso pra ver se os percentuais de IA crawler variam por nicho — minha amostra é enviesada (sites BR + EN finance/news).
Crítica técnica bem-vinda — em particular se alguém já tentou esse mesmo problema e descartou alguma abordagem.