Parabéns pelo post e obrigado por compartilhar sua experiência!

Tenho usado *fuzzy matching* para analisar um banco com vários milhões de registros, e tem sido bem interessante.

Para comparação de nomes de pessoas físicas, uma "zona segura" que adotei foi 80% de similaridade no nome completo, com o primeiro nome igual. Nos testes práticos os resultados foram praticamente inequívocos.

Depois, peguei similaridades específicas para o primeiro nome, com uma tolerância maior para o nome completo, de forma a experimentar qual seria a margem para alguma atualização massiva ou análise manual. Cheguei a 80% do primeiro nome e 60% do nome completo ainda com uma boa chance de acertar nomes abreviados e com erros de digitação.

Existem outras formas de realizar similaridade, mas mesmo com uma quantidade grande de registros o script usando rapidfuzz performou muito bem.

Parabéns pelo post e obrigado por compartilhar sua experiência! Tenho usado fuzzy matching para analisar um banco com vários milhões de registros, e tem sido bem interessante. Para compar...