Executando verificação de segurança...
7

Seria uma consultoria que configura um ecossistema de LLM self-hosted um bom modelo de negócio?

Pra gerar uma discussão: Qual a sua opinião?

Com a grande adoção de code agents e o senço comum de que estas ferramentas estão sendo subsidiadas pelas próprias empresas (ou seja, ficarão mais caras no futuro), só vou ficar confortável quando o cenário open source de LLMs tiver uma ferramenta suficiente pra que qualquer empresa possa utilizar seu próprio setup de LLMs, sem PRECISAR depender de terceiros.

Se esse cenário existir, acha que irão surgir consultorias pra instalar e configurar (finetuning, etc) os modelos self-hosted?

Carregando publicação patrocinada...
3

Rodo modelos locais em infraestrutura própria (Proxmox + Ollama) integrados com aplicações .NET. Alguns pontos práticos:

Onde self-hosted faz sentido:

  • Compliance rígido (LGPD, HIPAA) — dados não saem da rede
  • Volume alto — acima de ~50.000 chamadas/mês o payback da GPU fecha
  • Latência crítica — ~200ms local vs ~800ms-1.5s via API

Onde NÃO faz sentido (e é o erro mais comum):
Se o cliente faz 5.000 chamadas/mês, uma API key da OpenAI custa R 50/mês. Investir R 15.000+ numa RTX 4090 pra isso não fecha a conta. O perigo da consultoria é vender self-hosted pra quem deveria estar usando API.

Custos reais que ninguém menciona:

  • RTX 4090 (24GB VRAM): ~R$ 15.000 — roda bem modelos até 13B
  • Para 70B: precisa de 2x 4090 ou A100 (R$ 80.000+)
  • Quantização Q4 reduz ~15-20% da qualidade — ok pra sumarização, ruim pra geração complexa
  • Infra de produção não é "instalar Ollama e pronto" — precisa load balancing, health check de GPU, queue pra não dar OOM

Sobre o modelo de negócio: funciona, mas é nichado. O cliente-alvo geralmente já tem infra on-premise e budget pra hardware. O volume de clientes assim no Brasil é pequeno.

Uma dica prática: use Microsoft.Extensions.AI no .NET — abstrai o provider. O mesmo código funciona com OpenAI, Ollama ou Azure AI. Facilita migrar o cliente entre cloud e local sem refatorar.

2

Meus 2 cents,

Fine-tunning eu acho que nao (eh algo bem especifico, caro e nem sempre da o resultado esperado).

Mas RAG, GPU Cloud ou mesmo modelos menores locais (para atividades especificas ligadas a agentes) - eu acredito que sim.

Usar um modelo flagship (chatGPT, gemini, claude) acaba sendo caro (tokens, tokens, tokens), entao conforme ferramentas usando LLMs se popularizam eh bem provavel que alternativas se estabelecam - e quem saber navegar no huggingface, openrouter e ommiroute provavelmente serao importantes para este segmento.

Saude e Sucesso !

1

2cents...
Vejo oportunidade em consultoria que auxiliem as empresas a reduzirem os custos de uso de IA.
As vezes vc precisa de um modelo para extrair uma informação num texto, e é utilizado modelos caros para um trabalho q modelos menores dão conta.

1

Seria uma consultoria que configura um ecossistema de LLM self-hosted um bom modelo de negócio?

Somente se surgirem bons modelos open source

O quer sinceramente eu acho muito difícil.

Existe uma barreira muito grande hoje entre modelos open e privados, e lembro que ouvi recentemente uma publicaćão no Medium:

"Se você não paga o melhor plano você está 2 anos atrasado"

Depois disso fui fazer meu próprio teste: Paguei GPT plus e realmente a diferenća foi gritante, Pago copilot pro (agora pro +) desde o lançamento e temos que concordar que opus 4.6 e GPT 5.4 estão em outro nível.

A maior pergunta é: Os modelos open source vão chegar perto desses grandes modelos? e o custo para manter uma infra local vai compensar?

Estamos falando em milhões de investimento para uma equipe média.

Para manter LLM rodando em um desempenho aceitável não é só comprar uma 5090 e tá tudo certo, são múltiplas H100.

Só existia uma loja que vendia isso no brasil, é uma placa de 300k e está esgotada nesse momento

Montar um servidor com 8 a 12 dessas?

Só vejo um cenário onde isso compensaria: Toda a bolha da IA estourasse, investimento em IA travado, assinatura de GPT sobe de 100/mes para alguns milhares, é um cenário quase apocalíptico

E lembre, servidores tem uma vida útil de 5 a 8 anos.

só vou ficar confortável quando o cenário open source de LLMs tiver uma ferramenta suficiente pra que qualquer empresa possa utilizar seu próprio setup de LLMs, sem PRECISAR depender de terceiros.

Então eu sinceramente acredito que esse cenário seja inviável, pelo menos em curto a médio prazo.

Notícia boa no fim do túnel

Em vez de tentar ajudar as empresas a trazerem a IA na sua infraestrutura já pensou em se especializar em ajudar essas empresas a utilizarem a IA? 90% das empresas ainda não sabe que bixo é esse, acham que é só um google caro.

5

qwen 3.5 e gemma 4 mandaram um abraço!

Não é o estado da arte, mas dizer que esses modelos não são bons é loucura. Eu posso afirmar categoricamente que a variente 26/27b de ambos rodando em uma 4090 programam melhor que eu. E fazem isso a mais de 100 tokens por segundo!!!

E o kimi, glm e deepseek grandões estão hoje MUITO próximos dos modelos comerciais...E o gap só diminui a cada release. Boatos que o deepseek 4 que deve chegar até o fim do més é superior ao gpt 5.4 e opus 4.6...A ver..

1

Não tive essa mesma experiência, mas não testei tão a fundo.

Sou hard user de programação, levo os modelos aos limites de cada uma. Testarei melhor para dar um feedback mais preciso

1

Concordo tenho usado os modelos abertos glm em meus agentes em conjunto com Hermes e se souber configurar e deixar tudo fluido o poder de entrega de qualquer llm opensource e multiplicado consideravelmente, tenho tido otimos resultados para gerenciar toda uma startup com os agentes no controle ..

2

A maioria das aplicações das empresas não precisam de modelos ultra complexos. Vou ser ainda mais ousado: a maioria das aplicações nas empresas não precisam de IA at all. Um ERP bem feito adaptado, talvez com a IA preenchendo/fazendo interface resolveria 99% de todos os problemas das empresas atualmente e tornaria 99% dos 1% restantes triviais de resolver com código (gerado por IA) ou não.

1

Pra que um modelo pago que faz tudo?! Modelos menores especializados resolvem tão bem a necessidades trivial do dia-a-dia de 90% das tarefas de uma empresa. O problema é hardware para isso, mas se ja tiver, otimo.

1

Eu acho que isso depende muito do nível de maturidade do mercado e do workload real. Tem nuances bem mais complexas ai.

Hoje, na maior parte dos casos, API ainda é economicamente mais barata do que quase qualquer stack local séria, principalmente para pequenas e médias empresas. Quando você coloca na conta custo por milhão de tokens, a diferença para rodar localmente muitas vezes fica mínima e em vários cenários até piora no self-hosted quando entram CAPEX da GPU, manutenção, observabilidade, downtime, storage e custo humano de operação.

Mesmo a vantagem clássica de latência/TTFT já não é tão simples assim. Se esse for o gargalo, hoje já existem opções como Groq e Cerebras entregando respostas muitas vezes mais rápidas do que setups comuns em GPU, então nem isso é mais um argumento automático a favor do local.

Na prática, a principal vantagem do self-hosted hoje é independência de terceiros, soberania sobre os dados, previsibilidade de stack e liberdade para experimentar coisas novas na camada de inferência.

O problema é que o custo de implementação séria continua sendo muito subestimado. Se a empresa quer algo realmente bom, com batching contínuo, observabilidade, fallback, cache decente, controle de latência e throughput alto, ela não vai resolver isso com um dev backend comum fazendo chamada de API. Precisa de gente especializada em serving, MLOps e otimização de inferência profissionais que ainda têm oferta baixa e salário alto, muitas vezes disputados em dólar.

Mesmo com ferramentas como vLLM e llama.cpp, que facilitaram bastante, ainda existe um custo operacional e de complexidade alto. E quando você precisa ir além do básico, frequentemente tem que construir peças que ainda nem existem prontas no ecossistema.

Por isso, hoje eu vejo self-hosted como algo muito mais viável para grandes empresas, workloads estáveis, compliance forte ou times com alta maturidade técnica. E mesmo nesse segmento, muitas ainda preferem contratar consultoria de empresas como Google, Anthropic e OpenAI do que montar tudo internamente.

1

Sinceramente? Acho q uma consultoria q foque em otimizar o uso da IA ja vai dar um baita retorno. Tem muito lugar q implementou "nas coxas" pra sair na frente e ta pagando 2x mais q o necessario simplesmente pq as pessoas e processos nao estavam maduros o suficiente na epoca de implantaçao e nao tem ninguem fazendo o bom e velho dever de casa de revisitar os processos.

Ja vi um lugar q estava gastando tokens num processo que verificava se estavam gastando tokens.

Tem muita bizarrice rodando por debaixo dos panos, e o mercado para otimizaçao é gigante