E se usássemos IA para criar um "antivírus" proativo para o NPM? · devgustavoR

Olá, pessoal!

A recente notícia sobre o sequestro de pacotes gigantescos como o chalk e o debug me deixou pensando muito sobre a fragilidade da nossa cadeia de suprimentos de software.

Todos nós usamos o npm audit, mas ele funciona como um retrovisor, nos alertando sobre vulnerabilidades que já foram catalogadas. E quanto ao código malicioso que acaba de ser injetado e ainda não é conhecido por ninguém?

Essa inquietação me levou a um experimento ontem: e se pudéssemos ser proativos? E se uma IA pudesse atuar como um "analista de segurança virtual", lendo o código de um postinstall antes que ele tivesse a chance de rodar?

O Experimento (Prova de Conceito)

Para testar a ideia, criei um script simples em Node.js. A lógica era a seguinte:

Pegar o conteúdo de um arquivo .js.

Enviar para a API de uma LLM (usei o Claude 3 Haiku) com um prompt bem detalhado, pedindo para ela analisar o código em busca de comportamentos suspeitos e retornar um JSON estruturado com um riskScore.

Para minha surpresa, os resultados foram muito melhores do que eu esperava.

Teste 1: Simulação de Malware
Criei um script que lia o diretório ~/.ssh e enviava os dados para um servidor externo. A resposta da IA foi imediata: riskScore: 9, isMalicious: true, e uma justificativa apontando exatamente as linhas que acessavam o sistema de arquivos e exfiltravam os dados.

Teste 2: O Teste de Fogo (Falso Positivo)
O verdadeiro desafio era saber se a IA iria surtar com código legítimo. Peguei o script de instalação do prisma, que é notoriamente complexo. O resultado foi o que me convenceu de que a ideia tinha potencial: riskScore: 3, isMalicious: false. A IA corretamente o classificou como seguro, mas inteligentemente adicionou um "indicador de suspeita", mencionando que "a execução de código externo é um comportamento a ser observado".

Próximos Passos e a Busca por Feedback

O sucesso dessa prova de conceito me animou a transformar isso em uma ferramenta de verdade, que um dia possa analisar recursivamente as dependências, usar cache e ser realmente útil.

O projeto está literalmente no começo, mas queria compartilhar a ideia com a comunidade do desde o início, pois sei que aqui estão algumas das mentes mais afiadas do desenvolvimento.

O que vocês acham da abordagem? Quais seriam os maiores desafios que vocês enxergam (além dos óbvios, como lentidão e o custo da API)?

Estou pensando em publicá-lo como open-source com um modelo "traga sua própria chave" (BYOK) para começar. Isso seria algo que vocês considerariam usar?

Obrigado por lerem até aqui! Estou animado para ver onde essa ideia pode chegar com o feedback da comunidade.