Executando verificação de segurança...
2

pelo que entendi, está "socando conteudo no contexto" então está entrando muitos tokens para a inferencia da llm. O comentário +47 categorias assustou um pouco.

Eu particularmente não entregaria algo que é possivel implementar de forma determinística para um llm que é probabilístico com um custo computacional, financeiro, energético e ecológico altissimo.

Mas se tratando de um chatbot para consultar e interagir com usuário final fazendo questões relacionadas ao e-commerce, usaria uma LLM que tenha tools disponível, e um serviço MCP responderia algo mais preciso sem sujar muito o contexto, economizando muitos tokens de entrada, e talvez já fazendo essa classificação de forma determinística.

Outra abordagem é usar um vLLM ou serviço de LLM em cloud rodando uma versão opensource.

Inclusive tem o llm gpt-oss, que é "equivalente" a versão gpt-4o, podendo rodar na sua própria infraestrutura (se tiver gpu com 16gb ou 80gb de vram), ou em algum serviço cloud de llm da china.

Carregando publicação patrocinada...
3

Você sabe quanto custa uma Nvidia A100 80gb de VRAM? R$ 179.219,99 no boleto com desconto. Ou 1K/m USD no gpu-mart para um servidor com somente uma placa. Considerar também o custo da infraestrutura para a compra da placa.
Então tem que fazer muito bem a conta para definir o preço final para o cliente em relação ao volume de transações token.

2

Pois é... Por isso comentei alternativas, inclusive de nao usar llm para fazer esse tipo de classificação. Também falei da opção de usar um cloud chines com sua llm de preferência. Só nao citei o "Airbnb de máquina" vast.ai que também pode ser uma opção.