Boa, esse proxy é justamente o caminho que eu também venho ruminando.
O wrapper que usei pra medir os tokens já é meio um proxy mínimo: ele lê o input_tokens de cada turno antes de eu seguir. Falta dar a ele o poder de carregar skills sob demanda, que é o teu ponto.
Mas o que me trava é o custo do próprio proxy: se ele analisa cada requisição com um modelo, vira um novo imposto por turno em cima do que eu acabei de cortar.
To inclinado a separar: segurança num modelo local barato, e otimização de prompt no fluxo principal. Tu rodaria tudo num modelo só ou separaria as duas coisas?