Obrigado pelo comentário, irmão.
Concordo com você, acho que estamos entrando em uma fase onde “segurança para aplicações” e “segurança para LLMs” começam a se tornar coisas diferentes.
Antes a borda era relativamente previsível: payload HTTP, SQLi, XSS, RCE, etc. Agora o input é linguagem natural, contexto e comportamento emergente. Isso muda completamente o modelo de ameaça.
E sinceramente, também não acredito que regex ou filtros estáticos sejam suficientes a longo prazo. Prompt injection, jailbreaks e manipulação contextual são muito mais semânticos do que sintáticos. O atacante não precisa mais “explorar código”, ele pode explorar interpretação.
Essa ideia de proxy inteligente faz bastante sentido pra mim também. Algo no meio da cadeia analisando:
- intenção do prompt,
- desvio comportamental,
- tentativa de exfiltração,
- escalation de permissões,
- chamadas anômalas de tools/functions,
- padrões de contexto suspeitos.
Talvez o caminho seja uma combinação de:
- modelos menores especializados em detecção,
- análise contextual contínua,
- scoring de risco,
- isolamento por capability,
- memória segmentada,
- e observabilidade completa do fluxo do agente.
No fim, acho que vamos caminhar para algo parecido com um “EDR para agentes de IA”, porque o problema deixa de ser apenas tráfego e passa a ser comportamento.
Excelente reflexão. Obrigado por agregar na discussão