Meus 2 cents,
Se o objetivo eh puramente educacional e demonstrar o dominio da tecnologia - porque nao usar 'data factory' para isso ?
Criar dados 'fake' para este tipo de uso me parece o mais indicado, nao vejo muito sentido em ficar coletando dados (como CPF, nome, etc) sem necessidade e abrir uma brecha para dor de cabeca.
Uma sugestao eh google sobre 'dados fake para alimentar sistemas' ou 'github fake data factory'.
Isto posto: sim, coletar dados mesmo avisando dos riscos te expoe a um processinho. Coletar dados que voce nao precisa, mais um processinho. Se alguem conseguir baixar os dados coletados, processinho... Alguem vai processar ? Provavelmente nao, mas deixou a brecha.
Saude e Sucesso !