Vetores medem similaridade semântica, mas não relevância lógica ou hierarquia... · andradeandrey

Em resposta a O Problema da Memória em LLMs (IA)

Vetores medem similaridade semântica, mas não relevância lógica ou hierarquia de fatos. Isso é a falácia da proximidade vetorial (RAG tradicional).

É por isso que o mercado está se movendo para o Hybrid Search (Busca Vetorial + Busca por Palavras-chave/BM25) e, mais recentemente, para o Reranking. O Reranker é um modelo menor que analisa os 10-20 resultados da busca vetorial e os reordena por relevância real antes de enviar ao LLM.

Eu já fiz bons experimento com GNN (Graphic Neural Network) com muito bons resultados, mas muito ajuste manual, difícil de chegar em solução generica.

dealmeida

1 mês atrás

bom dia, sr

o sr acha que uma bem escrita heurística já seria o suficiente para aproveitar o potencial dos dados na busca?
oq acha da capacidade de RegEx? uma LLM sozinha poderia chamar a execução de um grep e encontrar uma info em um ou mais corpos de texto.
e oq vc acha de nós treinarmos uma LLM? assim, ela já compacta as infos na forma de pesos, mesmo

andradeandrey

Autor

1 mês atrás

Voce tocou em 3 pontos diferentes da engenharia de dados: a eficiência bruta (Heurísticas/RegEx), a inteligência de busca (LLM como ferramenta) e a natureza do aprendizado(Finetuning).

Quanto a heurística (regras de negócio, filtros de metadados, priorização por data ou relevância categórica) ela é, muitas vezes, superior ao RAG puro.
Se você sabe que o usuário sempre busca por "contratos ativos", uma heurística que filtre o banco de dados antes da busca vetorial elimina 90% do ruído. Elas falham na "cauda longa" da linguagem humana. Onde o usuário usa sinônimos ou conceitos abstratos, a heurística quebra. Ela não substituem a busca semântica, mas pode ser a primeira camada (Pre-filtering O erro de muitos projetos é jogar tudo para o vetor sem aplicar o conhecimento de negócio que já possuem.

Usar uma LLM para gerar e executar grep ou RegEx é uma forma subestimada de precisão cirúrgica. O RegEx é determinístico. Se você precisa encontrar um padrão (um CPF, um código de produto, uma data específica), o RegEx é 100% eficaz, enquanto o LLM sozinho pode alucinar o formato. Imagina um agente de IA que, ao receber uma pergunta, decide: "Para responder isso, preciso de um padrão específico, vou rodar um script de busca no diretório X". Isso é o que chamamos de Tool Use (ou Function Calling). A RegEx não entende intenção. Se você buscar "problemas técnicos" via RegEx, perderá mensagens que dizem "o sistema está instável", a menos que preveja todas as variações.

A RegEx é uma ferramenta de extração, não de compreensão. Funciona maravilhosamente bem como uma "ferramenta" que o Agente decide usar quando a busca semântica é vaga demais.
E ai vem a questão de treinar (ou fazer Finetuning) de uma LLM para ela "decorar" os dados parece a solução definitiva, mas tem armadilhas perigosas:Lenta e cara, precisão média (tende a misturar fatos e alucinar), privacidade difícil (o dado está "fundido" no modelo).

Você já tentou implementar algum tipo de Fine-tuning para testar.

dealmeida

1 mês atrás

sim, sr.

porém, nenhum deles é bala de prata, mesmo. cada um tem um propósito.

oq eu falei aqui ou q o sr falou já é o famoso CRUD básico, literal. adicionar boa coleta de dados, curadoria, ferramentas que economizem recursos, utilitários já consagrados, tudo isso é oq diferencia um CRUD de facul de um sistema melhorzinho.

porém, o segredo está em voltar à matemática, estatística, e estudar.