Eu acho que isso depende muito do nível de maturidade do mercado e do workloa... · MadrasLe

Eu acho que isso depende muito do nível de maturidade do mercado e do workload real. Tem nuances bem mais complexas ai.

Hoje, na maior parte dos casos, API ainda é economicamente mais barata do que quase qualquer stack local séria, principalmente para pequenas e médias empresas. Quando você coloca na conta custo por milhão de tokens, a diferença para rodar localmente muitas vezes fica mínima e em vários cenários até piora no self-hosted quando entram CAPEX da GPU, manutenção, observabilidade, downtime, storage e custo humano de operação.

Mesmo a vantagem clássica de latência/TTFT já não é tão simples assim. Se esse for o gargalo, hoje já existem opções como Groq e Cerebras entregando respostas muitas vezes mais rápidas do que setups comuns em GPU, então nem isso é mais um argumento automático a favor do local.

Na prática, a principal vantagem do self-hosted hoje é independência de terceiros, soberania sobre os dados, previsibilidade de stack e liberdade para experimentar coisas novas na camada de inferência.

O problema é que o custo de implementação séria continua sendo muito subestimado. Se a empresa quer algo realmente bom, com batching contínuo, observabilidade, fallback, cache decente, controle de latência e throughput alto, ela não vai resolver isso com um dev backend comum fazendo chamada de API. Precisa de gente especializada em serving, MLOps e otimização de inferência profissionais que ainda têm oferta baixa e salário alto, muitas vezes disputados em dólar.

Mesmo com ferramentas como vLLM e llama.cpp, que facilitaram bastante, ainda existe um custo operacional e de complexidade alto. E quando você precisa ir além do básico, frequentemente tem que construir peças que ainda nem existem prontas no ecossistema.

Por isso, hoje eu vejo self-hosted como algo muito mais viável para grandes empresas, workloads estáveis, compliance forte ou times com alta maturidade técnica. E mesmo nesse segmento, muitas ainda preferem contratar consultoria de empresas como Google, Anthropic e OpenAI do que montar tudo internamente.