Parabéns pelo post e obrigado por compartilhar sua experiência!
Tenho usado fuzzy matching para analisar um banco com vários milhões de registros, e tem sido bem interessante.
Para comparação de nomes de pessoas físicas, uma "zona segura" que adotei foi 80% de similaridade no nome completo, com o primeiro nome igual. Nos testes práticos os resultados foram praticamente inequívocos.
Depois, peguei similaridades específicas para o primeiro nome, com uma tolerância maior para o nome completo, de forma a experimentar qual seria a margem para alguma atualização massiva ou análise manual. Cheguei a 80% do primeiro nome e 60% do nome completo ainda com uma boa chance de acertar nomes abreviados e com erros de digitação.
Existem outras formas de realizar similaridade, mas mesmo com uma quantidade grande de registros o script usando rapidfuzz performou muito bem.