Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sentido mesmo.
O desafio é que a Receita Federal disponibiliza os dados em blocos nacionais (Empresas0-9.zip, Estabelecimentos0-9.zip). Mas podemos criar uma camada de "sharding" pós-processamento!
Estou imaginando algo assim:
# Ao invés de processar tudo:
python main.py
# Poder filtrar na origem:
python main.py --estados=SP,RJ --anos=2023,2024
Ou melhor ainda, pré-processar e disponibilizar downloads segmentados:
/dados/
/por-estado/
SP-2024.parquet (2GB)
MG-2024.parquet (800MB)
/por-ano/
2024-completo.parquet (15GB)
Criei uma issue pra isso: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/19