"Fala pessoal, fiz um post mais detalhado sobre a experiência de construir o pipeline e algumas lições aprendidas. Espero que ajude de alguma forma. https://dev.to/caiopizzol/como-processar-7gb-de-dados-cnpj-com-python-arquitetura-e-decisoes-tecnicas-54d0"0 tabcoin · 0 comentário · caiopizzol · 5 meses atrás
"Pois é! Baixar 85GB de dados pra analisar só empresas de MG não faz muito sentido mesmo. O desafio é que a Receita Federal disponibiliza os dados em blocos nacionais (Empresas0-9.zip, Estabelecimentos0-9.zip). Mas podemos criar uma camada de "sharding"..."1 tabcoin · 0 comentário · caiopizzol · 6 meses atrás
"Lendo novamente seu comentário, é FUNDAMENTAL esse esclarecimento! Tão relevante que pensei em documentar isso: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/15"2 tabcoins · 0 comentário · caiopizzol · 6 meses atrás
"Você tocou no dilema clássico: build vs buy. Por que processar 85GB se a BrasilAPI já existe? Na minha visão é que servem casos diferentes: APIs (BrasilAPI, ReceitaWS): Consulta pontual de CNPJ (200ms) Zero infra, sempre atualizado Limite de requests,..."2 tabcoins · 0 comentário · caiopizzol · 6 meses atrás
"Valeu pelo insight! Criei uma issue para documentar diferentes abordagens: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/13 Pensei em adicionar uma flag --strategy=bulk-initial baseado na sua ideia :rocket:"2 tabcoins · 1 comentário · caiopizzol · 6 meses atrás
"Esse é o conceito de OSS, se eu já fiz todo o trabalho necessário porque não compartilhar com outras pessoas que também precisam da mesma informação (já que... digamos o dado não vem tão pronto assim :upside_down_face:)"1 tabcoin · 0 comentário · caiopizzol · 6 meses atrás
"Valeu pelo elogio e pelos 2 cents! Exatamente, são dados públicos disponibilizados de maneira gratuita pelo Governo através do Portal de Dados Abertos Inclusive, tem documentação específica só sobre a fonte do dado no repositório: https://github.com/cn..."3 tabcoins · 0 comentário · caiopizzol · 6 meses atrás