Pitch: Como reduzi em 98% o uso de contexto (e os custos) de IA no meu workflow (open-source)
Link do Projeto: https://github.com/S1LV4/th0th
Se você usa assistentes de IA no seu dia a dia para desenvolver, provavelmente já esbarrou em dois grandes gargalos: o limite da janela de contexto e os custos crescentes de API.
Eu estava vivendo exatamente isso e decidi construir uma solução. O que começou como um sistema simples para guardar o conhecimento de projetos evoluiu para uma arquitetura robusta de gestão inteligente de contexto. Batizei o projeto de Th0th (ou Tot):
“THOTH ou TOT: É o deus da escrita e da sabedoria. Os egípcios acreditavam que Thoth tinha criado os hieróglifos. Thoth era também conhecedor da matemática, astronomia, magia e representava todos os conhecimentos científicos. Sua associação mais antiga refere-se a ele como o deus da Lua.”
O Th0th atua como um “guardião do conhecimento”, reduzindo o uso de tokens em até 98% nas buscas semânticas para assistentes de IA.
A Arquitetura do Th0th
Desenvolvido majoritariamente em TypeScript (96.8%) e rodando sobre o Bun para garantir máxima performance, o Th0th utiliza o SQLite (bun:sqlite) como mecanismo de armazenamento. A arquitetura se apoia em quatro pilares fundamentais:
1. Busca Semântica Híbrida (Vector + Keyword)
A busca vetorial pura não é suficiente para código. Em programação, nomes de variáveis, assinaturas e precisão lexical são críticos. Por isso, implementei uma abordagem híbrida:
- Embeddings vetoriais para entendimento semântico (via modelos locais do Ollama ou API).
- Busca léxica tradicional para correspondência exata.
Para combinar esses resultados perfeitamente, o sistema utiliza o algoritmo RRF (Reciprocal Rank Fusion), garantindo o retorno do trecho semanticamente mais relevante junto da função ou interface exata mencionada.
2. Compressão Extrema (Sem LLM):
Enviar código bruto para o modelo é um desperdício massivo de tokens. O Th0th possui um motor de compressão baseado em regras locais — sem uso de LLM, sem rede e sem custo adicional. As estratégias de redução incluem:
- code_structure: Extrai apenas assinaturas, interfaces, classes e hierarquia de código, gerando de 70% a 90% de redução de tokens.
- conversation_summary: Comprime históricos de chat com redução de 80% a 95%.
- semantic_dedup: Elimina redundância estrutural, reduzindo o conteúdo em 50% a 70%.
- hierarchical: Organiza documentações em níveis de prioridade, com 60% a 80% de economia.
A compressão acontece antes do envio ao modelo, cortando custo e latência drasticamente.
3. Memória Persistente e Cache Multinível
IA é, por padrão, stateless (sem estado). O Th0th não é. Transformei a IA em um sistema com memória de longo prazo por meio de:
- Armazenamento persistente hierárquico em SQLite.
- Cache L1/L2 com TTL (Time to Live).
Ferramentas como “th0th_remember” e “th0th_recall” permitem armazenar e buscar informações importantes de sessões anteriores. Se a mesma estrutura é solicitada novamente, o cache a retorna instantaneamente, sem recalcular embeddings.
4. Abordagem Local-First (Custo Zero)
Um requisito inegociável era a independência de APIs externas. O Th0th é 100% offline. Criei um script (setup-local-first.sh) que automatiza tudo: instala o Ollama, baixa modelos locais como nomic-embed-text ou bge-m3, cria os diretórios de dados e inicializa o banco vetorial local em SQLite.
O resultado? Custo de manutenção zero ($0), funcionamento offline e a garantia de que seu código-fonte nunca sai da sua máquina.
graph TD
A[Consulta do Assistente de IA/Usuário] --> B{Cache L1/L2 e Memória Persistente}
B -- Cache Hit --> C[Retorno Instantâneo do Contexto]
B -- Cache Miss --> D[Busca Semântica Híbrida]
subgraph Busca e Ranqueamento
D --> E[Busca Vetorial: Embeddings locais via Ollama/Mistral]
D --> F[Busca Léxica Tradicional: Correspondência exata]
E --> G[Algoritmo RRF: Reciprocal Rank Fusion]
F --> G
end
G --> H[Motor de Compressão Extrema Local - Sem LLM]
subgraph Estratégias de Compressão
H --> I[code_structure: Reduz 70-90%]
H --> J[conversation_summary: Reduz 80-95%]
H --> K[semantic_dedup & hierarchical: Reduz 50-80%]
end
I --> L[Armazenamento em SQLite / Atualização do Cache]
J --> L
K --> L
L --> M[Ferramenta th0th_optimized_context]
M --> N[Contexto Otimizado enviado via MCP ou REST API para a IA]
C --> N
Integração no Workflow (MCP e REST)
Para ser útil no dia a dia, o Th0th oferece interfaces robustas:
- Suporte Nativo ao MCP (Model Context Protocol):
Comunicação via stdio, permitindo o uso com clientes padrão da indústria, como o Claude Desktop. - API REST/PLUGIN OPENCODE: Para integrações diretas com assistentes locais ou plugins customizados (como o OpenCode).
O comando/tool mais interessante é o th0th_optimized_context, que executa, em uma única chamada: a busca semântica híbrida, a aplicação do RRF, a compressão estrutural e o retorno do contexto otimizado.
É a garantia de máxima relevância com o mínimo de tokens.
O impacto real e Reflexão Final
Após implementar essa infraestrutura, minhas sessões ficaram mais rápidas, os custos caíram drasticamente e a previsibilidade das respostas aumentou. A IA passou a trabalhar com um contexto curado, em vez de um despejo bruto de informações (dumping).
À medida que o uso de IA aplicada a código se intensifica, acredito que precisaremos de uma nova camada arquitetural: sistemas intermediários de gestão de contexto. Não basta ter modelos maiores; precisamos de infraestrutura melhor.
O Th0th é minha contribuição open-source para essa direção, disponível no GitHub (S1LV4/th0th) sob licença MIT.
#AI #ArtificialIntelligence #GenerativeAI #LLM #DevTools #SoftwareArchitecture #ContextEngineering #SemanticSearch #OpenSource #TypeScript #LocalFirst #MCP