Eu faço uma estratégia parecida:
Eu faço o tratamento dos dados antes de inserir, removendo caracteres, linhas duplicadas e etc
Depois eu importo os dados para uma base de dados vazia através do bulk insert.
Logo em seguida eu faço o insert dos dados em outras tabelas já fazendo o tratamento de alguns dados, joins e indices.
No final tenho uma tabela gigantesca não só com os dados de estabelecimento, mas tbm da tabela empresas, simples nacional e demais, de forma que eu não precise fazer um Join para obter os dados, já que isto pode ser muito demorado dependendo da situação.
2
2
Valeu pelo insight!
Criei uma issue para documentar diferentes abordagens: https://github.com/cnpj-chat/cnpj-data-pipeline/issues/13
Pensei em adicionar uma flag --strategy=bulk-initial baseado na sua ideia 🚀
2
Eu não sei se já conhecem, mas há outras estratégias como o do link abaixo.