Você tocou no dilema clássico: build vs buy. Por que processar 85GB se a BrasilAPI já existe?
Na minha visão é que servem casos diferentes:
APIs (BrasilAPI, ReceitaWS):
- Consulta pontual de CNPJ (200ms)
- Zero infra, sempre atualizado
- Limite de requests, sem SQL complexo
Pipeline próprio:
- Queries tipo "todas fintechs de SP fundadas pós-2020"
- JOINs complexos, análise em massa
- 100GB de disco, manutenção mensal
Pensei em comparar e documentar a diferença entre os dados, abri um issue para isso:
https://github.com/cnpj-chat/cnpj-data-pipeline/issues/14