Pitch: Como reduzi em 98% o uso de contexto (e os custos) de IA no meu workflow (open-source)
Link do Projeto: https://github.com/S1LV4/th0th
OBS: POST ATUALIZADO (CONFORME NOVO UPDATE NO SISTEMA)
Se você usa assistentes de IA no seu dia a dia para desenvolver, provavelmente já esbarrou em dois grandes gargalos: o limite da janela de contexto e os custos crescentes de API.
Eu estava vivendo exatamente isso e decidi construir uma solução. O que começou como um sistema simples para guardar conhecimento de projetos evoluiu para uma arquitetura robusta de gestão inteligente de contexto. Batizei o projeto de Th0th (ou Tot):
“THOTH ou TOT: É o deus da escrita e da sabedoria. Os egípcios acreditavam que Thoth tinha criado os hieróglifos. Thoth era também conhecedor da matemática, astronomia, magia e representava todos os conhecimentos científicos. Sua associação mais antiga refere-se a ele como o deus da Lua.”
O Th0th atua como um “guardião do conhecimento”, reduzindo o uso de tokens em até 98% nas buscas semânticas para assistentes de IA.
A Arquitetura do Th0th
Desenvolvido majoritariamente em TypeScript (96.8%), rodando sobre Bun para máxima performance, e utilizando SQLite (bun:sqlite) como mecanismo de armazenamento.
A arquitetura atual se apoia em 5 pilares fundamentais:
1. Busca Semântica Híbrida (Vector + Keyword)
A busca vetorial pura não é suficiente para código.
Em programação, nomes de variáveis, assinaturas e precisão lexical são críticos.
Por isso, implementei uma abordagem híbrida:
- Embeddings vetoriais para entendimento semântico (via modelos locais do Ollama ou API).
- Busca léxica tradicional para correspondência exata.
Para combinar esses resultados perfeitamente, o sistema utiliza o algoritmo RRF (Reciprocal Rank Fusion). Garantindo que o trecho semanticamente mais relevante venha acompanhado da função/interface exata mencionada.
2. Compressão Extrema (Sem LLM):
Enviar código bruto para o modelo é um desperdício massivo de tokens. O Th0th possui um motor de compressão baseado em regras locais — sem uso de LLM, sem rede e sem custo adicional. As estratégias de redução incluem:
- code_structure: Extrai apenas assinaturas, interfaces, classes e hierarquia de código, gerando de 70% a 90% de redução de tokens.
- conversation_summary: Comprime históricos de chat com redução de 80% a 95%.
- semantic_dedup: Elimina redundância estrutural, reduzindo o conteúdo em 50% a 70%.
- hierarchical: Organiza documentações em níveis de prioridade, com 60% a 80% de economia.
A compressão acontece antes do envio ao modelo, cortando custo e latência drasticamente.
3. Memória Persistente, Cache Multinível e Auto-Consolidação
IA é, por padrão, stateless (sem estado)!
O Th0th não é. Transformei a IA em um sistema com memória de longo prazo por meio de:
🔹 Persistência Hierárquica (SQLite)
Armazenamento estruturado com camadas de memória.
🔹 Cache L1/L2 com TTL
Respostas instantâneas sem recomputar embeddings.
🔹 Detecção de Staleness + Reindex Incremental
O sistema detecta automaticamente:
- Arquivos modificados, criados ou deletados
- Índices com mais de 24h
- Necessidade de reindex incremental síncrono (até ~50 arquivos)
- Ou reindex em background para grandes volumes
Após reindexação:
- Cache L1/L2 é invalidado automaticamente
- Warmup inteligente pré-carrega queries frequentes
4. Consolidação Automática de Memórias (Background Job)
A cada 5 minutos, o sistema executa um processo de higiene da base:
Promoção
Memórias com alta importância + frequência ≥ 0.85 são promovidas para memória persistente.
Decay Adaptativo
- Decisões arquiteturais → decaimento lento (0.97)
- Conversas → decaimento rápido (0.78)
- Memórias 7+ dias sem acesso perdem relevância gradualmente
Poda Inteligente
Memórias:
> 45 dias
= importância < 0.25
< 2 acessos
São removidas com suas arestas no grafo.
RedundancyFilter
A cada 5 ciclos:
- Similaridade cosseno
> 0.95→ merge automático - Preserva a memória mais importante
- Transfere arestas e contadores
5. Knowledge Graph Automático + Auto-Checkpointing
Knowledge Graph Dinâmico
Sempre que uma memória é armazenada:
- Busca por embeddings similares
- Classifica relações via heurísticas locais (sem LLM)
- Atualiza o grafo automaticamente
O conhecimento vira uma rede viva.
Auto-Checkpointing
Snapshots automáticos:
- A cada N operações (padrão: 10)
- Imediatamente em caso de erro
- Em milestones explícitos
Com:
- Compressão gzip
- TTL configurável
- 3 dias (automáticos)
- 14 dias (milestones)
Sistema limpo, resiliente e sem acúmulo de lixo.
Fluxo de Execução
graph TD
A[Consulta do Assistente de IA/Usuário] --> B{Cache L1/L2}
B -- Cache Hit --> C[Retorno Instantâneo]
B -- Cache Miss --> S{Index Stale?}
S -- Sim --> R[Reindex Incremental: só arquivos alterados]
S -- Não --> D[Busca Semântica Híbrida]
R --> INV[Invalidação do Cache + Warmup]
INV --> D
subgraph Busca e Ranqueamento
D --> E[Busca Vetorial: Embeddings locais via Ollama/Mistral/OpenAI]
D --> F[Busca Léxica FTS: Correspondência exata]
E --> G[Algoritmo RRF: Reciprocal Rank Fusion]
F --> G
end
G --> MEM[Knowledge Graph: Memórias relacionadas]
MEM --> H[Motor de Compressão Local - Sem LLM]
subgraph Estratégias de Compressão
H --> I[code_structure: 70-90%]
H --> J[conversation_summary: 80-95%]
H --> K[semantic_dedup & hierarchical: 50-80%]
end
I --> L[SQLite / Atualização do Cache]
J --> L
K --> L
L --> M[th0th_optimized_context]
M --> N[Contexto via MCP / REST / Plugin OpenCode]
C --> N
subgraph Background Jobs
BG1[Consolidação: decay, promoção, poda a cada 5min]
BG2[RedundancyFilter: merge duplicatas a cada 5 ciclos]
BG3[AutoCheckpointer: snapshots gzip a cada N ops]
BG4[Graph Extractor: relações automáticas on store]
end
L -.-> BG1
L -.-> BG2
L -.-> BG3
MEM -.-> BG4
Integração no Workflow (MCP e REST)
Para ser útil no dia a dia, o Th0th oferece interfaces robustas:
- Suporte Nativo ao MCP (Model Context Protocol):
Comunicação via stdio, permitindo o uso com clientes padrão da indústria, como o Claude Desktop.
{
"mcpServers": {
"th0th": {
"type": "local",
"command": ["bunx", "@th0th-ai/mcp-client"],
"env": {
"TH0TH_API_URL": "http://localhost:3333"
},
"enabled": true
}
}
}
- API REST/PLUGIN OPENCODE: Para integrações diretas com assistentes locais ou plugins customizados (como o OpenCode).
O impacto real e Reflexão Final
Após implementar essa infraestrutura, minhas sessões ficaram mais rápidas, os custos caíram drasticamente e a previsibilidade das respostas aumentou. A IA passou a trabalhar com um contexto curado, em vez de um despejo bruto de informações (dumping).
À medida que o uso de IA aplicada a código se intensifica, acredito que precisaremos de uma nova camada arquitetural: sistemas intermediários de gestão de contexto. Não basta ter modelos maiores; precisamos de infraestrutura melhor.
O Th0th é minha contribuição open-source para essa direção, disponível no GitHub (S1LV4/th0th) sob licença MIT.
#AI #ArtificialIntelligence #GenerativeAI #LLM #DevTools #SoftwareArchitecture #ContextEngineering #SemanticSearch #OpenSource #TypeScript #LocalFirst #MCP