Meus 2 cents:

Da uma olhada no openrouter.ai  - da para contratar tokens para diversos modelos (e ver o melhor custo).

Analise tambem usar um LiteLLM ou AnythingLLM como wrappers (eles podem rodar em docker local e ser acessados via API) - assim nao precisa ligar direto no modelo e fica mais facil mudar se necessario.

Com a solucao LiteLLM+openrouter.ai ainda da para tirar relatorios de uso e custo previsto e eventualmente usar um fallback quando determinado valor ser alcancado (para nao estourar teu orcamento).

Meus 2 cents: Da uma olhada no openrouter.ai - da para contratar tokens para diversos modelos (e ver o melhor custo). Analise tambem usar um LiteLLM ou AnythingLLM como wrappers (eles pod...