pelo que entendi, está "socando conteudo no contexto" então está entrando muitos tokens para a inferencia da llm. O comentário +47 categorias assustou um pouco.
Eu particularmente não entregaria algo que é possivel implementar de forma determinística para um llm que é probabilístico com um custo computacional, financeiro, energético e ecológico altissimo.
Mas se tratando de um chatbot para consultar e interagir com usuário final fazendo questões relacionadas ao e-commerce, usaria uma LLM que tenha tools disponível, e um serviço MCP responderia algo mais preciso sem sujar muito o contexto, economizando muitos tokens de entrada, e talvez já fazendo essa classificação de forma determinística.
Outra abordagem é usar um vLLM ou serviço de LLM em cloud rodando uma versão opensource.
Inclusive tem o llm gpt-oss, que é "equivalente" a versão gpt-4o, podendo rodar na sua própria infraestrutura (se tiver gpu com 16gb ou 80gb de vram), ou em algum serviço cloud de llm da china.