Eu faço uma estratégia parecida:
Eu faço o tratamento dos dados antes de inserir, removendo caracteres, linhas duplicadas e etc 
Depois eu importo os dados para uma base de dados vazia através do bulk insert. 
Logo em seguida eu faço o insert dos dados em outras tabelas já fazendo o tratamento de alguns dados, joins e indices.
No final tenho uma tabela gigantesca não só com os dados de estabelecimento, mas tbm da tabela empresas, simples nacional e demais, de forma que eu não precise fazer um Join para obter os dados, já que isto pode ser muito demorado dependendo da situação.

Valeu pelo insight!

Criei uma issue para documentar diferentes abordagens: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/13

Pensei em adicionar uma flag `--strategy=bulk-initial` baseado na sua ideia :rocket:

Eu não sei se já conhecem, mas há outras estratégias como o do link abaixo.

Link:
https://github.com/rictom/cnpj-sqlite

Eu faço uma estratégia parecida: Eu faço o tratamento dos dados antes de inserir, removendo caracteres, linhas duplicadas e etc Depois eu importo os dados para uma base de dados vazia atr...