5 min de leitura ·

Pitch: Como reduzi em 98% o uso de contexto (e os custos) de IA no meu workflow (open-source)

Link do Projeto: https://github.com/S1LV4/th0th

OBS: POST ATUALIZADO (CONFORME NOVO UPDATE NO SISTEMA)

Se você usa assistentes de IA no seu dia a dia para desenvolver, provavelmente já esbarrou em dois grandes gargalos: o limite da janela de contexto e os custos crescentes de API.

Eu estava vivendo exatamente isso e decidi construir uma solução. O que começou como um sistema simples para guardar conhecimento de projetos evoluiu para uma arquitetura robusta de gestão inteligente de contexto. Batizei o projeto de Th0th (ou Tot):

“THOTH ou TOT: É o deus da escrita e da sabedoria. Os egípcios acreditavam que Thoth tinha criado os hieróglifos. Thoth era também conhecedor da matemática, astronomia, magia e representava todos os conhecimentos científicos. Sua associação mais antiga refere-se a ele como o deus da Lua.”

O Th0th atua como um “guardião do conhecimento”, reduzindo o uso de tokens em até 98% nas buscas semânticas para assistentes de IA.

A Arquitetura do Th0th

Desenvolvido majoritariamente em TypeScript (96.8%), rodando sobre Bun para máxima performance, e utilizando SQLite (bun:sqlite) como mecanismo de armazenamento.

A arquitetura atual se apoia em 5 pilares fundamentais:

1. Busca Semântica Híbrida (Vector + Keyword)

A busca vetorial pura não é suficiente para código.

Em programação, nomes de variáveis, assinaturas e precisão lexical são críticos.
Por isso, implementei uma abordagem híbrida:

Embeddings vetoriais para entendimento semântico (via modelos locais do Ollama ou API).
Busca léxica tradicional para correspondência exata.

Para combinar esses resultados perfeitamente, o sistema utiliza o algoritmo RRF (Reciprocal Rank Fusion). Garantindo que o trecho semanticamente mais relevante venha acompanhado da função/interface exata mencionada.

2. Compressão Extrema (Sem LLM):

Enviar código bruto para o modelo é um desperdício massivo de tokens. O Th0th possui um motor de compressão baseado em regras locais — sem uso de LLM, sem rede e sem custo adicional. As estratégias de redução incluem:

code_structure: Extrai apenas assinaturas, interfaces, classes e hierarquia de código, gerando de 70% a 90% de redução de tokens.
conversation_summary: Comprime históricos de chat com redução de 80% a 95%.
semantic_dedup: Elimina redundância estrutural, reduzindo o conteúdo em 50% a 70%.
hierarchical: Organiza documentações em níveis de prioridade, com 60% a 80% de economia.

A compressão acontece antes do envio ao modelo, cortando custo e latência drasticamente.

3. Memória Persistente, Cache Multinível e Auto-Consolidação

IA é, por padrão, stateless (sem estado)!

O Th0th não é. Transformei a IA em um sistema com memória de longo prazo por meio de:

🔹 Persistência Hierárquica (SQLite)

 Armazenamento estruturado com camadas de memória.

🔹 Cache L1/L2 com TTL

 Respostas instantâneas sem recomputar embeddings.

🔹 Detecção de Staleness + Reindex Incremental

O sistema detecta automaticamente:

Arquivos modificados, criados ou deletados
Índices com mais de 24h
Necessidade de reindex incremental síncrono (até ~50 arquivos)
Ou reindex em background para grandes volumes

Após reindexação:

Cache L1/L2 é invalidado automaticamente
Warmup inteligente pré-carrega queries frequentes

4. Consolidação Automática de Memórias (Background Job)

A cada 5 minutos, o sistema executa um processo de higiene da base:

Promoção

Memórias com alta importância + frequência ≥ 0.85 são promovidas para memória persistente.

Decay Adaptativo

Decisões arquiteturais → decaimento lento (0.97)
Conversas → decaimento rápido (0.78)
Memórias 7+ dias sem acesso perdem relevância gradualmente

Poda Inteligente

Memórias:

> 45 dias  
  = importância < 0.25  
< 2 acessos

São removidas com suas arestas no grafo.

RedundancyFilter

A cada 5 ciclos:

Similaridade cosseno > 0.95 → merge automático
Preserva a memória mais importante
Transfere arestas e contadores

5. Knowledge Graph Automático + Auto-Checkpointing

Knowledge Graph Dinâmico

Sempre que uma memória é armazenada:

Busca por embeddings similares
Classifica relações via heurísticas locais (sem LLM)
Atualiza o grafo automaticamente

O conhecimento vira uma rede viva.

Auto-Checkpointing

Snapshots automáticos:

A cada N operações (padrão: 10)
Imediatamente em caso de erro
Em milestones explícitos

Com:

Compressão gzip
TTL configurável
- 3 dias (automáticos)
- 14 dias (milestones)

Sistema limpo, resiliente e sem acúmulo de lixo.

Fluxo de Execução

graph TD
    A[Consulta do Assistente de IA/Usuário] --> B{Cache L1/L2}
    B -- Cache Hit --> C[Retorno Instantâneo]
    B -- Cache Miss --> S{Index Stale?}
    S -- Sim --> R[Reindex Incremental: só arquivos alterados]
    S -- Não --> D[Busca Semântica Híbrida]
    R --> INV[Invalidação do Cache + Warmup]
    INV --> D
    subgraph Busca e Ranqueamento
        D --> E[Busca Vetorial: Embeddings locais via Ollama/Mistral/OpenAI]
        D --> F[Busca Léxica FTS: Correspondência exata]
        E --> G[Algoritmo RRF: Reciprocal Rank Fusion]
        F --> G
    end
    G --> MEM[Knowledge Graph: Memórias relacionadas]
    MEM --> H[Motor de Compressão Local - Sem LLM]
    subgraph Estratégias de Compressão
        H --> I[code_structure: 70-90%]
        H --> J[conversation_summary: 80-95%]
        H --> K[semantic_dedup & hierarchical: 50-80%]
    end
    I --> L[SQLite / Atualização do Cache]
    J --> L
    K --> L
    L --> M[th0th_optimized_context]
    M --> N[Contexto via MCP / REST / Plugin OpenCode]
    C --> N
    subgraph Background Jobs
        BG1[Consolidação: decay, promoção, poda a cada 5min]
        BG2[RedundancyFilter: merge duplicatas a cada 5 ciclos]
        BG3[AutoCheckpointer: snapshots gzip a cada N ops]
        BG4[Graph Extractor: relações automáticas on store]
    end
    L -.-> BG1
    L -.-> BG2
    L -.-> BG3
    MEM -.-> BG4

Integração no Workflow (MCP e REST)

Para ser útil no dia a dia, o Th0th oferece interfaces robustas:

Suporte Nativo ao MCP (Model Context Protocol):
Comunicação via stdio, permitindo o uso com clientes padrão da indústria, como o Claude Desktop.

{
  "mcpServers": {
    "th0th": {
      "type": "local",
      "command": ["bunx", "@th0th-ai/mcp-client"],
      "env": {
        "TH0TH_API_URL": "http://localhost:3333"
      },
      "enabled": true
    }
  }
}

API REST/PLUGIN OPENCODE: Para integrações diretas com assistentes locais ou plugins customizados (como o OpenCode).

O impacto real e Reflexão Final

Após implementar essa infraestrutura, minhas sessões ficaram mais rápidas, os custos caíram drasticamente e a previsibilidade das respostas aumentou. A IA passou a trabalhar com um contexto curado, em vez de um despejo bruto de informações (dumping).

À medida que o uso de IA aplicada a código se intensifica, acredito que precisaremos de uma nova camada arquitetural: sistemas intermediários de gestão de contexto. Não basta ter modelos maiores; precisamos de infraestrutura melhor.

O Th0th é minha contribuição open-source para essa direção, disponível no GitHub (S1LV4/th0th) sob licença MIT.

#AI #ArtificialIntelligence #GenerativeAI #LLM #DevTools #SoftwareArchitecture #ContextEngineering #SemanticSearch #OpenSource #TypeScript #LocalFirst #MCP

Fonte: https://github.com/S1LV4/th0th

sharkdyt

Muito bom seu projeto, também gostei muito do projeto do elzobrito sobre "Pare de deixar LLMs editarem seu código direto: Conheça a arquitetura ESAA (Event Sourcing para Agentes Autônomos)" postado recentemente aqui no TabNews. Ambos me parecem complementares de certa forma.

Eu mesmo estou trabalhando em um projeto próprio similar ao de vocês, me apaixonei por essa area de "harness" de IA.

Criei uma memória cross-project e cross-agent via MCP, nela eu também uso SQLite pra salvar preferencias, soluções e informações úteis de todos os meus projetos, assim posso usar tanto Claude Code quanto Codex, OpenCode, Gemini CLI, Antigravity e as informações de todos os projetos estão lá, alguns deles se complementam, então não queria apenas criar um AGENTS.md ou documentações em cada, não é a melhor forma de gravar soluções, snippets, etc.

Me baseei na estrutura do Cline's Memory Bank e da memória do AgentZero, no meu caso, é tudo 100% local, não preciso usar API externa de embedding nem nada do tipo e isso tem me ajudado a poupar tokens também, assim como criar skills pra coisas que eu preciso sempre instruir os agentes.

Atualmente estou em um projeto de orquestração completa de agentes, usando LiteLLM, OpenClaw, AgentZero, MCP, Supabase, etc... Espero criar uma startup completa de IA nas próximas semanas kkkk (me desejem sorte, vou precisar)

Se tiver interesse em trocar figurinhas sobre agent harness, fico a disposição!

Pitch: Como reduzi em 98% o uso de contexto (e os custos) de IA no meu workflow (open-source)

A Arquitetura do Th0th

1. Busca Semântica Híbrida (Vector + Keyword)

2. Compressão Extrema (Sem LLM):

3. Memória Persistente, Cache Multinível e Auto-Consolidação

🔹 Persistência Hierárquica (SQLite)

🔹 Cache L1/L2 com TTL

🔹 Detecção de Staleness + Reindex Incremental

4. Consolidação Automática de Memórias (Background Job)

Promoção

Decay Adaptativo

Poda Inteligente

RedundancyFilter

Knowledge Graph Dinâmico

Auto-Checkpointing

Fluxo de Execução

Integração no Workflow (MCP e REST)

O impacto real e Reflexão Final

Prompts para o Th0th

Onboarding / Início de sessão

Implementar feature

Investigar bug / entender código

Review de consistência

Sessão longa / contexto grande

Fechar sessão / salvar aprendizados

Regra geral para colocar no system prompt