Meus 2 cents,
Ainda nos anos 90, em um dos sistemas que trabalhei usava-se uma funcao "soundex" com padrao brasileiro (desenvolvido atraves de um TCC na UFSC, se nao me engano).
Funcionava absurdamente bem (retornava um "token" de ate 4 bytes para cada palavra - ou algo assim - e permitia a comparacao direta). Retirava conectores ("de", "dos", etc) e "tokenizava" as palavras (ate lembra o que os LLMs fazem hoje em dia).
Semelhante ao abaixo, mas com uma funcao "soundex" personalizada:
https://www.macoratti.net/sql_sdex.htm
Tem alguma coisa aqui tambem, paginas 27-35
https://www.upf.br/_uploads/Conteudo/erbd2017/anais_ERBD2017_final_pos.pdf