Executando verificação de segurança...
2

pelo que entendi, está "socando conteudo no contexto" então está entrando muitos tokens para a inferencia da llm. O comentário +47 categorias assustou um pouco.

Eu particularmente não entregaria algo que é possivel implementar de forma determinística para um llm que é probabilístico com um custo computacional, financeiro, energético e ecológico altissimo.

Mas se tratando de um chatbot para consultar e interagir com usuário final fazendo questões relacionadas ao e-commerce, usaria uma LLM que tenha tools disponível, e um serviço MCP responderia algo mais preciso sem sujar muito o contexto, economizando muitos tokens de entrada, e talvez já fazendo essa classificação de forma determinística.

Outra abordagem é usar um vLLM ou serviço de LLM em cloud rodando uma versão opensource.

Inclusive tem o llm gpt-oss, que é "equivalente" a versão gpt-4o, podendo rodar na sua própria infraestrutura (se tiver gpu com 16gb ou 80gb de vram), ou em algum serviço cloud de llm da china.

Carregando publicação patrocinada...