Os trade offs das diversas técnicas de rag na prática é complicado.
Seu model embedding é SOTA? Talvez trocar seja uma das mudanças mais simples e com mais ganho.
Melhorar o query pre-processing, mas n para retirar termos/jargões, mas sim para expandir a query com conhecimento útil já vai naturalmente diminuir um pouco a importância destes termos q estão enviesando a retrieval no cálculo de cosseno, claro, é um chute meu.
Tem como fazer um agente mais elaborado q muda a técnica de rag e flows (graphrag, ou reranking, etc) de acordo com o input inicial do user, mas n sei... Pode ser muito complexo, eu mesmo nunca tentei.
Enfim, muito massa o caso seu. Quando tiver resultado compartilhe aqui no tab, flw