Os trade offs das diversas técnicas de rag na prática é complicado. 

Seu model embedding é SOTA? Talvez trocar seja uma das mudanças mais simples e com mais ganho.

Melhorar o query pre-processing, mas n para retirar termos/jargões, mas sim para expandir a query com conhecimento útil já vai naturalmente diminuir um pouco a importância destes termos q estão enviesando a retrieval no cálculo de cosseno, claro, é um chute meu.

Tem como fazer um agente mais elaborado q muda a técnica de rag e flows (graphrag, ou reranking, etc) de acordo com o input inicial do user, mas n sei... Pode ser muito complexo, eu mesmo nunca tentei.

Enfim, muito massa o caso seu. Quando tiver resultado compartilhe aqui no tab, flw

Os trade offs das diversas técnicas de rag na prática é complicado. Seu model embedding é SOTA? Talvez trocar seja uma das mudanças mais simples e com mais ganho. Melhorar o query pre-pro...