Mais alguns cents,
Obrigado pelas respostas - esclareceu diversos pontos !
Sobre a limitacao dos modelos (13B) - como voce citou um pouco antes que acabou indo para o RAG, o fato de ser um modelo menor nem impacta tanto ja que o LLM eh usado basicamente para montar a resposta baseado nos dados obtidos pela busca semantica/vetorial e eventualmente por um sistema de ranqueamento.
Uma ideia talvez seja buscar LLMs ja treinados em pt-br, p.ex.
https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it
https://huggingface.co/firstpixel/F5-TTS-pt-br
https://huggingface.co/Alissonerdx/Dia1.6-pt_BR-v1
https://huggingface.co/recogna-nlp/bode-13b-alpaca-pt-br
Parabens pelo projeto - Saude e Sucesso !!!