Executando verificação de segurança...
1

Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sentido mesmo.

O desafio é que a Receita Federal disponibiliza os dados em blocos nacionais (Empresas0-9.zip, Estabelecimentos0-9.zip). Mas podemos criar uma camada de "sharding" pós-processamento!

Estou imaginando algo assim:

# Ao invés de processar tudo:
python main.py

# Poder filtrar na origem:
python main.py --estados=SP,RJ --anos=2023,2024

Ou melhor ainda, pré-processar e disponibilizar downloads segmentados:

/dados/
  /por-estado/
    SP-2024.parquet  (2GB)
    MG-2024.parquet  (800MB)
  /por-ano/
    2024-completo.parquet (15GB)

Criei uma issue pra isso: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/19

Carregando publicação patrocinada...