3 min de leitura ·

🧬 Crompressor V2: Como Cortar 80% da sua Fatura de Storage - De 💲1.150 para $216 - O Fim da Compressão Convencional

No cenário atual de infraestrutura de dados massivos (Big Data), a compressão tradicional enfrenta um dilema: ou você comprime muito (Zstd/Gzip) e perde o acesso aleatório, ou você mantém o acesso e gasta fortunas em storage.

O Crompressor V2 (CROM) quebra este paradigma ao tratar o dado não como uma sequência de bytes, mas como um mapa de referências determinísticas. Este artigo analisa a fundo as evidências coletadas na suíte de auditoria técnica para provar que a soberania de dados e a eficiência extrema podem coexistir.

⚙️ Arquitetura Técnica: Como Funciona?

Content-Defined Chunking (CDC)

Diferente da compressão baseada em blocos fixos, o CROM utiliza o algorítmo CDC para identificar fronteiras de chunks baseadas no conteúdo real. Isso garante que inserções ou remoções simples no meio de um arquivo não invalidem o restante da compressão (Resiliência a Delta Sync).

graph LR
    A[Byte Stream] --> B{CDC Chunker}
    B --> C[Chunk A]
    B --> D[Chunk B]
    B --> E[Chunk C]
    C --> F{Codebook Lookup}
    F -->|Match| G[Reference ID]
    F -->|New| H[Storage Buffer]

VFS Mount (Acesso Instantâneo)

O CROM permite montar arquivos comprimidos como sistemas de arquivos virtuais. O kernel enxerga arquivos abertos, mas o binário busca apenas os chunks necessários no .cromdb, entregando um TTFB (Time to First Byte) inferior a 10ms.

📊 Resultados Reais de Auditoria (SRE Benchmarks)

Conduzimos 5 testes críticos para validar a tecnologia. Os relatórios completos podem ser encontrados no diretório de Pesquisa Técnica.

Teste 01: Logs JSON (Alta Redundância)

Dataset: 26.2 MB (2,000,000 linhas de logs).
Peso Original: 26,200,000 Bytes
Peso CROM: 4,935,022 Bytes
Economia de Espaço: 81.17%
Sustentabilidade: Redução de I/O em 4x.

[!IMPORTANT]
Integridade: 100% dos testes passaram na verificação SHA-256 (Lossless) via verify.

Teste 02: Eficácia do Chunker (Delta Sync)

Ao processar um dump SQL de 5.7MB, o sistema gerou 44,750 chunks únicos. A fragmentação de 0.23% prova que o sistema consegue mapear massas complexas em pequenas referências atômicas.

💵 Análise Comparativa de TCO (USD)

A maior vantagem do Crompressor é financeira. Projetando o uso de armazenamento em nuvem (AWS S3 Standard), os números são brutais:

Volume (Original)	Custo S3 Standard (USD)	Custo CROM Optimized (USD)	Economia Mensal
50 TB	$1,150.00	$216.55	$933.45
1 PB	$23,000.00	$4,331.00	$18,669.00
10 PB	$230,000.00	$43,310.00	$186,690.00

pie title Distribuição de Custos (USD p/ 1 PB)
    "Crompressor" : 4331
    "Economia Direta" : 18669

🤝 Soberania e P2P (Rede Mesh)

O Teste 04 validou a identidade soberana do nó ($ jmint_1774767673). A sincronização P2P do Crompressor permite que o Codebook (o cérebro da compressão) seja compartilhado de forma descentralizada, garantindo que os dados nunca fiquem presos a um provedor centralizado.

Regra de Ouro: Quem possui o Codebook, possui o dado. Sem o servidor central, você mantém a soberania total sobre sua infraestrutura.

O Crompressor V2 não é apenas um "compactador". É uma camada de abstração de documentos e infraestrutura soberana. Com economia sustentada de 80% e acesso VFS de baixa latência, ele é a solução definitiva para o armazenamento frio moderno.

Referências de Auditoria:

Fonte: https://crom.run/blog/crompressor-v2-como-cortar-80-da-sua-fatura-de-storage-de-1150-para-216-o-fim-da-compressao-convencional

AndreFernandes

3 meses atrás

Muito bom, isso parece realmente ser muito poderoso. Se conseguir montar como um disco ou em subistiuição do arquivo parket. Tem potencial de aumentar a eficiencia de armazenamento do mundo inteiro. Parabens.

Andreldev

3 meses atrás

Deixa eu ver se eu entendi.

É como se o 7z ao invés de criar um arquivo compactado ele cria um "dispositivo" VHD um disco virtual, e nesse disco virtual os meus dados já vivem compactados dentro?

Desculpa posso estar sendo tolo, só estou tentando entender como essa estrutura realmente funciona.

E acho que o downvot do pessoal foi por conta das imagens e alguns emojs, ai o pessoa sente que é um conteúdo gerado 100% com IA.

Katsudouki

3 meses atrás

Posso estar errado, mas pelo que entendi da publicação sobre a versão 1 e esta, você usa o Crom para criar um .cromdb com os arquivos de referência que já tem e ele usa esse arquivo como dicionário para comprimir/descomprimir. Em vez de enviar o arquivo completo, só envia quais partes do .cromdb usar para remontar o arquivo original.

MrJ

Autor

3 meses atrás

A interpretação de que o sistema utiliza um arquivo de referência (.cromdb) para evitar o envio de dados completos está correta e é o pilar central da eficiência do projeto.

Dicionarização Estática: A compressão convencional cria um dicionário novo para cada arquivo. O Crompressor utiliza um Codebook pré-treinado que contém padrões universais ou específicos de um domínio.
O Conceito de Delta XOR: Quando um pedaço de dado não existe exatamente no Codebook, o sistema encontra o padrão mais próximo e armazena apenas a diferença binária (XOR) entre eles.
Exemplo Prático: Se você deseja armazenar 10.000 logs de um servidor, o sistema identifica que 90% das strings (como cabeçalhos de data e IP) são repetitivas e já estão no "cérebro" (Codebook). O arquivo final .crom contém apenas as coordenadas de onde buscar esses dados no dicionário e os poucos bytes que variam em cada log.

MrJ

Autor

3 meses atrás

A percepção de que o sistema se assemelha a um VHD (Virtual Hard Disk) onde os dados já vivem compactados está parcialmente correta no que diz respeito à interface de uso, mas difere radicalmente na implementação interna.

Interface FUSE (Virtual Filesystem): O Crompressor utiliza o kernel do sistema operacional para projetar um ponto de montagem virtual. Para o usuário, ele aparece como uma unidade de disco normal, permitindo abrir arquivos nativamente.
Acesso Aleatório O(1): Diferente de um arquivo .7z ou .zip, que geralmente exige a descompressão total ou de grandes blocos sequenciais para acessar um arquivo específico, o Crompressor utiliza uma BlockTable. Isso permite que o sistema localize e descompacte apenas os bytes exatos solicitados pelo software, resultando em latências de acesso aleatório na casa de microssegundos.
Diferença do VHD: Enquanto um VHD armazena blocos brutos de disco, o Crompressor armazena um "mapa de referências". O dado não está apenas "guardado"; ele foi "compilado" contra um dicionário.

LukaOliveira

3 meses atrás

Bem legal o artigo e a tecnologia, desde já, parabéns! Tudo parece bem estruturado e conciso, e a visão de soberania também é bem interessante.

Mas fiquei com uma dúvida: você mencionou sobre a latência, com o TTFB abaixo de 10ms, mas qual o impacto no throughput?

Por exemplo, em um cenário onde o sistema precisasse ler um dump de 100GB de uma vez, o VFS não teria problemas para ficar reorganizando esses chunks para entregar a leitura contínua? Digo problemas em relação ao custo de processamento e de RAM.

MrJ

Autor

3 meses atrás

Olá! Muito obrigado pelo feedback. Excelente pergunta!

De fato, os custos de RAM e CPU em arquivos gigantes sempre são o pesadelo dos sistemas de arquivos virtuais. Seria um problema grave se fôssemos carregar o dump ou reorganizá-lo por completo em runtime. Mas a boa notícia é que nós já saímos muito do escopo da arquitetura v2, onde os testes iniciais foram feitos.

Na nossa melhoria arquitetônica atual, o motor VFS não entra em colapso porque ele jamais tenta mastigar os 100GB de uma vez. O Random Reader do backend opera utilizando um Cache LRU (Least Recently Used) de Blocos.

Sobre o impacto na RAM: O arquivo .crom por baixo dos panos é dividido em blocos fechados (geralmente de 16MB) com offsets pré-calculados in-band. Quando o sistema operacional começa a leitura progressiva do dump de 100GB, o Crompressor extrai e aplica o Delta Patching progressivamente. O pulo do gato é que a capacidade do Cache LRU possui um hardcap de apenas 4 blocos. Ou seja, não importa se você está lendo um arquivo de 10GB, 100GB ou 10TB de uma vez — o consumo de RAM ficará matematicamente travado e reciclando em torno de ~64MB. Conforme o ponteiro de leitura avança, os blocos mais velhos são sumariamente evictados da memória.

Sobre o impacto no Processamento (Throughput): Para evitar que a CPU enlouqueça e fique abrindo a mesma fechadura mil vezes para entregar bytes picados, a nossa leitura (loadBlockPool) roda atrelada a travamentos assíncronos (Mutex/Locking). Se múltiplas requisições baterem no mesmo bloco de 16MB simultaneamente para fatiar bytes na leitura, a extração criptográfica rodará estritamente uma vez, amortizando a descompressão. O custo de processamento cresce muito levemente em relação ao stream do leitor primário do SO e continua bastante contínuo.

Caso queira ver como tudo foi estruturado, dá uma olhada na arquitetura do VFS lá no repositório:

Toda a lógica mecânica do Random Reader lidando com chunks e o Lock de processamento está no arquivo: internal/vfs/reader.go (foco no método loadBlockPool).
O sistema de reciclagem pesada da RAM O(1) pode ser visto no arquivo: internal/vfs/cache.go
Fique tranquilo que o teto de OOM (Out Of Memory) foi arquitetado cirurgicamente pro VFS aguentar stress pesado. Mais uma vez, obrigado pelo apoio e pelo interesse prático no projeto!