Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sentido mesmo.

O desafio é que a Receita Federal disponibiliza os dados em blocos nacionais (Empresas0-9.zip, Estabelecimentos0-9.zip). Mas podemos criar uma camada de "sharding" pós-processamento!

Estou imaginando algo assim:
```bash
# Ao invés de processar tudo:
python main.py

# Poder filtrar na origem:
python main.py --estados=SP,RJ --anos=2023,2024
```

Ou melhor ainda, pré-processar e disponibilizar downloads segmentados:
```
/dados/
  /por-estado/
    SP-2024.parquet  (2GB)
    MG-2024.parquet  (800MB)
  /por-ano/
    2024-completo.parquet (15GB)
```

Criei uma issue pra isso: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/19

Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sentido mesmo. O desafio é que a Receita Federal disponibiliza os dados em blocos nacionais (Empresas0-9.zip, Est...

Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sen... · caiopizzol

Talvez sirva para algum propósito, mas já pensa...