Executando verificação de segurança...
2

bom dia, sr

o sr acha que uma bem escrita heurística já seria o suficiente para aproveitar o potencial dos dados na busca?
oq acha da capacidade de RegEx? uma LLM sozinha poderia chamar a execução de um grep e encontrar uma info em um ou mais corpos de texto.
e oq vc acha de nós treinarmos uma LLM? assim, ela já compacta as infos na forma de pesos, mesmo

Carregando publicação patrocinada...
1

Voce tocou em 3 pontos diferentes da engenharia de dados: a eficiência bruta (Heurísticas/RegEx), a inteligência de busca (LLM como ferramenta) e a natureza do aprendizado(Finetuning).

Quanto a heurística (regras de negócio, filtros de metadados, priorização por data ou relevância categórica) ela é, muitas vezes, superior ao RAG puro.
Se você sabe que o usuário sempre busca por "contratos ativos", uma heurística que filtre o banco de dados antes da busca vetorial elimina 90% do ruído. Elas falham na "cauda longa" da linguagem humana. Onde o usuário usa sinônimos ou conceitos abstratos, a heurística quebra. Ela não substituem a busca semântica, mas pode ser a primeira camada (Pre-filtering O erro de muitos projetos é jogar tudo para o vetor sem aplicar o conhecimento de negócio que já possuem.

Usar uma LLM para gerar e executar grep ou RegEx é uma forma subestimada de precisão cirúrgica. O RegEx é determinístico. Se você precisa encontrar um padrão (um CPF, um código de produto, uma data específica), o RegEx é 100% eficaz, enquanto o LLM sozinho pode alucinar o formato. Imagina um agente de IA que, ao receber uma pergunta, decide: "Para responder isso, preciso de um padrão específico, vou rodar um script de busca no diretório X". Isso é o que chamamos de Tool Use (ou Function Calling). A RegEx não entende intenção. Se você buscar "problemas técnicos" via RegEx, perderá mensagens que dizem "o sistema está instável", a menos que preveja todas as variações.

A RegEx é uma ferramenta de extração, não de compreensão. Funciona maravilhosamente bem como uma "ferramenta" que o Agente decide usar quando a busca semântica é vaga demais.
E ai vem a questão de treinar (ou fazer Finetuning) de uma LLM para ela "decorar" os dados parece a solução definitiva, mas tem armadilhas perigosas:Lenta e cara, precisão média (tende a misturar fatos e alucinar), privacidade difícil (o dado está "fundido" no modelo).

Você já tentou implementar algum tipo de Fine-tuning para testar.

1

sim, sr.

porém, nenhum deles é bala de prata, mesmo. cada um tem um propósito.

oq eu falei aqui ou q o sr falou já é o famoso CRUD básico, literal. adicionar boa coleta de dados, curadoria, ferramentas que economizem recursos, utilitários já consagrados, tudo isso é oq diferencia um CRUD de facul de um sistema melhorzinho.

porém, o segredo está em voltar à matemática, estatística, e estudar.