Meus 2 cents:
Da uma olhada no openrouter.ai - da para contratar tokens para diversos modelos (e ver o melhor custo).
Analise tambem usar um LiteLLM ou AnythingLLM como wrappers (eles podem rodar em docker local e ser acessados via API) - assim nao precisa ligar direto no modelo e fica mais facil mudar se necessario.
Com a solucao LiteLLM+openrouter.ai ainda da para tirar relatorios de uso e custo previsto e eventualmente usar um fallback quando determinado valor ser alcancado (para nao estourar teu orcamento).