Obrigado por colocar isso em palavras. Eu estava batendo de cabeça com o mesmo problema no trabalho: como evitar que o .env do time vazasse via dependência comprometida.
Cheguei a desenhar um proxy server distribuindo API keys individuais por pessoa, mas quando comecei a pensar em sessão, rate limit por usuário e o setup de infra inteiro pra sustentar isso, o custo ficou inviável pra proposta interna.
Sandbox no nível do agente, do jeito que você descreveu, é uma direção bem mais barata pra começar. Vou experimentar — separar o diretório de trabalho, bloquear rede quando a tarefa não pede, e tratar package.json e workflows como área sensível parecem 3 mudanças que dá pra adotar amanhã sem reescrever a stack.
Boa síntese do "ambiente impedindo, não prompt pedindo".