7 min de leitura ·

Skills do Claude Code consomem tokens mesmo sem disparar. Medi 5 Skills em 7 horas — os 3 que nunca rodaram comeram 11% da conta.

Eu achava que Skill do Claude Code era um upgrade grátis em cima dos meus custom commands. Não é grátis. É aluguel.

Essa frase é o artigo inteiro em quinze palavras. O resto é eu mostrando os comprovantes.

Numa terça-feira eu rodei uma sessão única do Claude Code por 7 horas seguidas com 5 Skills carregadas: revisor de PR, helper de migração TypeScript, validador de migração de banco, rastreador de log e limpador de CSV. Três delas nunca dispararam uma única vez no dia. Eu revisei o log de invocação duas vezes porque não acreditei. Mesmo assim, essas três sozinhas levaram cerca de 11% do total de tokens da sessão. Somando com as duas que de fato rodaram, Skills ficou com 18% da conta.

Antes desse dia eu vinha dizendo pros colegas que "Skill só custa quando dispara, então pode deixar tudo carregado". Estava errado. E errado de um jeito que dá pra medir em reais.

Como Skills carregam de verdade

Tá tudo na documentação. Eu tinha lido por cima.

Quando a sessão começa, o Claude Code lê todas as Skills no escopo. O que entra no contexto nesse momento é só o name e o description do frontmatter do SKILL.md. O corpo da Skill ainda não entra. O corpo só carrega quando o Claude decide que o description casa com o seu prompt, ou quando você digita /nome-da-skill na mão. Uma vez carregado, o corpo fica no contexto até a sessão acabar ou a compaction rodar.

A parte que eu não tinha internalizado: o description está no contexto a cada turno. Não só na abertura da sessão. Cada mensagem sua, cada resposta do Claude, o description de toda Skill carregada continua ali, como parte do prompt. Cinco Skills com description de ~300 tokens dá ~1.500 tokens de "olha o que essas Skills sabem fazer" sendo recobrados em cada turno.

Numa sessão de 80 turnos, esse mesmo bloco de texto é pago 160 vezes. Cada um é pequeno. Mas é constante. É a Skill cobrando aluguel.

A sessão que medi

Eu uso Claude Code como ferramenta principal de trabalho. No dia da medição foi uma terça normal: triagem de PR de manhã, refactor longo de tarde, shell exploratório no fim do dia. Sessão única, mantida aberta o tempo todo, com --output-format json --verbose passando por um wrapper de log que gravava o campo usage de cada resposta.

As 5 Skills que estavam em ~/.claude/skills/:

Skill	tamanho do description	função	disparou?
`review-pr`	~310 tokens	fluxo de revisão de PR	sim (11 vezes)
`migrate-ts`	~290 tokens	helper de migração TS	sim (2 vezes)
`migrate-db`	~340 tokens	validador de migração DB	não
`trace-logs`	~270 tokens	rastreio de padrões em log	não
`clean-csv`	~280 tokens	receitas de limpeza de CSV	não

Total de description carregado por turno: ~1.490 tokens de metadado de Skill, sentado em cima do CLAUDE.md, do contexto do projeto e da conversa viva.

A sessão durou 7h12, 84 turnos, ~2,1 milhões de tokens de entrada e saída no total (prompt caching ligado quase o tempo todo).

O comprovante

Quebrei o consumo em três categorias: total, "o que teria sido sem Skills" (estimativa subtraindo o overhead de description e o corpo dos dois que rodaram) e a diferença. Os números reais:

Categoria	Tokens	Fatia
Conversa, CLAUDE.md, leitura de código	1.720K	82%
Skills ativas (`review-pr` + `migrate-ts`)	147K	7%
Skills dormentes (descriptions, 3 nunca dispararam)	231K	11%
Total	2.098K	100%

As duas Skills que trabalharam custaram 7%. Tudo bem. Elas me pouparam pelo menos esse mesmo tanto em prompt que eu não tive que redigitar.

As três que nunca casaram com nada custaram 11%. Retorno: zero. Com prompt caching ativo, o custo de description por turno é parcialmente absorvido, mas só parcialmente: cada vez que o meu prompt muda, a fronteira do cache se move, o description é re-tokenizado e entra no input_tokens do billing. Onze por cento.

Em conta de Claude Code Max ( $200/mês \approx R$ 1.100/mês), 18% é **R $198/mês**. Desses, R$ 121/mês são as três dormentes. Eu estava pagando esse valor para manter três arquivos de texto no contexto. Eu nem tenho coragem de comentar isso na padaria.

Timeline de 5 Skills em 7 horas: ativas vs dormentes

A auditoria do dia seguinte

Na manhã seguinte rodei a mesma carga de trabalho (mesmo conjunto de PRs, mesmos tipos de prompt) com apenas as duas Skills que tinham disparado no dia anterior. Consumo total: ~1.872K tokens. Queda de ~11% em relação à véspera. Dentro do ruído de "dois dias nunca são iguais", o número bate com o aluguel que as três dormentes vinham cobrando.

Se você quer fazer essa mesma medição na sua máquina, basta envelopar o claude num wrapper que lê o JSON do usage:

claude -p "$SEU_PROMPT" --output-format json --verbose \
  | jq '{input: .usage.input_tokens, cached: .usage.cache_read_input_tokens, output: .usage.output_tokens}'

A linha que importa é input_tokens. Se ela tem uma deriva pra cima depois que você adiciona uma Skill nova, você está pagando aluguel de description.

Por que isso me pegou de surpresa

Eu tratava Skill como import em linguagem de programação: custo zero até ser chamada. import é grátis porque o compilador descarta o que não foi referenciado. O Claude Code não pode descartar. O description é justamente o material que ele usa pra decidir se chama ou não. Se o description fosse lazy-loaded, ele nem teria como decidir disparar a Skill em primeiro lugar.

É uma escolha de design coerente. É a escolha certa, inclusive. Mas a consequência é que o custo marginal de "ter uma Skill instalada e nunca usada" não é zero. É um imposto por turno que vai se somando ao longo da sessão.

Não confunda isso com Hook. Hook é disparado de propósito pelo Claude Code em resposta a eventos: pre-tool, post-tool, session-end. Hook não fica descrito no system prompt pra matching nenhum, fica configurado no settings.json e o harness chama quando precisa. Hook que nunca dispara custa zero de verdade. Skill que nunca dispara custa description × cada turno. São mecanismos diferentes que ficam encostados no mesmo Claude Code.

Também não é a mesma coisa que MCP server inativo. Um MCP server inscreve a lista completa de ferramentas no system prompt na abertura da sessão (um único estudo público mediu ~27.000 tokens por servidor), mas isso é custo fixo por servidor, não por turno. Skill é menor por item, mas tende a ser em maior quantidade, e o "× cada turno" multiplica.

Checklist: auditar suas Skills em 5 passos

Virou rotina mensal aqui. 10 minutos.

Lista todas as Skills no escopo. ls ~/.claude/skills/, mais o .claude/skills/ do projeto, mais qualquer Plugin. Anota num arquivo.
Pra cada Skill, descobre a última vez que ela disparou. Se você loga sessões com --output-format json, basta um grep pelo nome da Skill nas entradas de tool-use. Se você não loga, vai depender da memória, e a memória mente.
Marca como "candidata" toda Skill sem disparo nos últimos 30 dias. Não deleta ainda. Só sinaliza.
Move a candidata pro sótão por uma semana. Aqui eu literalmente faço mv ~/.claude/skills/<name>/ ~/.claude/skills-atico/. Trabalha uma semana sem ela. Se não fez falta, era aluguel.
Re-mede o input_tokens na linha de base. Mesmo tipo de carga, sem as candidatas carregadas. Se a linha caiu de forma visível, você acabou de descobrir a economia.

A armadilha que dá pra evitar: não delete a candidata na hora. Tem Skill que não dispara há 30 dias porque você usa só num fechamento trimestral que você esquece. "Pro sótão" é o meio-termo seguro.

O que mudei aqui

Três Skills foram pro sótão. Uma volta no mês que vem porque tenho migração de banco programada. As outras duas, provavelmente ficam por lá. As duas ativas continuam.

A sessão que estou rodando agora pra escrever este artigo também tá só com duas Skills. A linha do input_tokens por turno ficou plana de um jeito que ela não era antes (vinha subindo de leve). 11% parece pouco quando você fala em voz alta. R$ 121/mês só com três arquivos de texto sentados no contexto sem disparar tem outra cara. Em conta de API metered, depende do uso, mas é a mesma história em formato diferente.

Quem mantém muitas Skills carregadas não tá errado de gostar da praticidade. Só precisa saber que essa praticidade tem um imposto por turno, e que o imposto é invisível até você decidir ir conferir.

A frase que vou colar no monitor: carregada ≠ ativa ≠ paga só quando usa.

Roda o claude -p com --output-format json uma vez e olha o usage.input_tokens. O número está ali há um tempão, contando essa história. Eu é que não estava prestando atenção.

A camada de design de Skills, allow-list por papel, e os padrões de operação do Claude Code que mantém o overhead de token sob controle estão em Practical Claude Code — o capítulo de Skills é o que mais releio antes de adicionar uma nova.

ken imoto · WebRTC & Voice AI engineer · kenimoto.dev · TabNews

Fonte: https://kenimoto.dev/pt/blog/skills-3-dormentes-18-tokens/

marlonPassos

2 meses atrás

Concordo com seu ponto. Mas para skills mais operacionais, como PR, commit, deploy e release, faz mais sentido usar disable-model-invocation: true, porque são fluxos que vão disparar manualmente em momentos específicos.
Pelo que entendi da doc, isso mantém a skill disponível via comando manual, mas evita que o modelo carregue/invoque ela automaticamente, reduzindo o custo de contexto quando ela não está sendo usada. Então talvez o caminho ideal seja deixa só skill mais contextual, tipo frontend/performance/testes, disponíveis em todos o

kenimo49

Autor

2 meses atrás

Boa, essa flag é um botão bem mais limpo do que mover pro sótão.
O mv foi meu jeito bruto de resolver. Com disable-model-invocation tu mantém o /comando manual sem precisar tirar o arquivo do lugar.
A dúvida que me sobra é se o description ainda é recobrado por turno mesmo com a flag ligada. Isso eu ainda não medi.
Tu chegou a ver a linha de input_tokens cair depois de setar essa flag? Se caiu, é melhor que o meu sótão.

marlonPassos

2 meses atrás

No Codex eu não testei, mas no Claude Code, se você der uma olhada nos arquivos de sessão, vai ver que nem a descrição nem o título são carregados automaticamente durante as sessões. Isso é algo legal, porque às vezes a gente pensa em coisas muito avançadas para resolver um problema, quando, se fosse olhar a documentação oficial, teria uma configuraçãozinha boba que já resolveria isso kkk.

Oletros

2 meses atrás

Meus 2 cents,

Parabens pelo post !

Eh sempre interessante acompanhar questoes reais nos projetos do dia-a-dia.

Ja tinha notado este comportamento, mas nao tinha gasto muito tempo pensando nele - considerando apenas uma questao a ser analisada "se e quando" tivesse tempo.

Mas lendo teu post este ponto aflora, principalmente quanto ao custo oculto: como costumo usar modelos de assinatura, free ou locais, nao parece tanto, mas tem um consumo ali que vai pesar em algum momento.

Cada vez mais penso na necessidade de um proxy de LLM (talvez um modelo local) que analise a requisicao e:

Veja se nao tem comando ou acao maliciosa embutida
Carregue dinamicamente elementos (como uma skill, MCP, tool, etc) se necessarios
Otimize dados (p.ex. JSON para TOON)
Otimize prompt (p.ex. retirando redundancias)
Processe o retorno e analise novamente se nao tem comando ou acao maliciosa injetada.

Assim como o sandbox, um proxy parece cada vez mais um elemento imprescindivel no harness de trabalho com LLMs - sao pequenas coisas que estao me incomodando no uso de LLMs de forma mais automatizada.

Obrigado por compartilhar !

Saude e Sucesso !

Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

kenimo49

Autor

2 meses atrás

Boa, esse proxy é justamente o caminho que eu também venho ruminando.

O wrapper que usei pra medir os tokens já é meio um proxy mínimo: ele lê o input_tokens de cada turno antes de eu seguir. Falta dar a ele o poder de carregar skills sob demanda, que é o teu ponto.

Mas o que me trava é o custo do próprio proxy: se ele analisa cada requisição com um modelo, vira um novo imposto por turno em cima do que eu acabei de cortar.

To inclinado a separar: segurança num modelo local barato, e otimização de prompt no fluxo principal. Tu rodaria tudo num modelo só ou separaria as duas coisas?

Oletros

2 meses atrás

Meus 2 cents extendidos,

Estou mais inclinado ao uso de um modelo barato (local ?) para tudo.

A preocupacao (alem do custo) eh: latencia.

Um modelo local (p.ex. instruct) ate consegue rodar uns 50 tokens/s (ou mais se tiver GPU) - o que para um unico usuario ate vai, mas se juntar 50 usuarios simultaneos, como faz ?

Minha ideia: contratar uma VM com GPU equivalente (B, H, etc), colocar um ou mais modelos locais/instruct para rodar e usar esta infra para a analise - mas para ser viavel precisa ter um minimo de usuarios pagantes. A vantagem eh que, imaginando mercado coorporativo, da para fazer seg/sex, 8/18 VM mais pesada e fora do horario com VM mais leve (e mais barata) ou ate subir sob demanda.

Estava pensando em algo usando o OmniRoute/LiteLLM ou algo assim para captar o trafego (fazendo o papel que o Squid faz para trafego web) e entao direcionar para esta(s) VM(s) - ou algo do genero.

Saude e Sucesso !

Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

valterpatrick

2 meses atrás

Talvez ter uma nuvem compartilhada onde é dividido o valor pago?
Mas seria bom se fosse algo fixo.

macnator

2 meses atrás

Exatamente, não é só o Claude que faz isso, na verdade qualquer modelo atual com skill faz isso, por isso mesmo eu criei um sistema próprio de skills ele na verdade é mais pros usuarios estudarem do que para usar em si, pode usar se quiser claro, mas tenho certeza que para seu uso proprio seria interessante desenvolver ele para outros caminhos, mas ele dá a visão de como economizar tokens de forma global com skills ilimitadas, voce pode ver o projeto aqui: https://github.com/edilsonmaia/Autoreflex

O diferencial dele é que bem instruído o modelo le apenas as skills necessárias durante a fase do seu projeto. E não todo banco de skills, além disso para pesquisar milhares de skills ele tem acesso a um indice semantico criado por ia local sem custo que classifica e devolve somente o resumo do resultado relevante para a ia do agente que le esse pequeno resumo identifica a skill correta e carrega somente ela, se é isso que sua instrução manda fazer.

Não é um rag perfeito de skills, funciona muito bem e é uma ideia para partir. Eu mesmo uso isso de forma muito mais desenvolvida em projetos reais, com milhares de skills, que podem ser separadas por projeto, voce pode instruir o agente a salvar skills com prefixo no nome por projeto por exemplo.

O melhor uso dele é como servidor de skills fora do projeto em si, assim a ia não tem caminhos para burlar as tavas em prompt e ir pesquisar tudo sem voce ver. ela fica restrita ao que a ia local classificar para ela.

Eu na minha produção transfomei isso em MCP para integrar fácil com Codex e Opencode
recomendo ler isso:

https://www.tabnews.com.br/macnator/model-context-protocol-mcp-a-nova-camada-de-abstracao-que-todo-desenvolvedor-precisa-entender

valterpatrick

2 meses atrás

Muito interessante a ideia, vou acessar o repositório e testar no antigravity com opencode.
Por favor publique mais conteúdos sobre isto para a comunidade.

kenimo49

Autor

2 meses atrás

O índice semântico devolvendo só o resumo da skill relevante é exatamente a direção que eu queria, em vez de carregar o banco inteiro. Isso bate com o proxy que tô discutindo na outra thread aqui, na parte de carregar sob demanda. Vou dar uma olhada no Autoreflex, valeu por trazer o repo.