Rodo modelos locais em infraestrutura própria (Proxmox + Ollama) integrados c... · lzocateli

Rodo modelos locais em infraestrutura própria (Proxmox + Ollama) integrados com aplicações .NET. Alguns pontos práticos:

Onde self-hosted faz sentido:

Compliance rígido (LGPD, HIPAA) — dados não saem da rede
Volume alto — acima de ~50.000 chamadas/mês o payback da GPU fecha
Latência crítica — ~200ms local vs ~800ms-1.5s via API

Onde NÃO faz sentido (e é o erro mais comum):
Se o cliente faz 5.000 chamadas/mês, uma API key da OpenAI custa R $50/mês. Investir R$ 15.000+ numa RTX 4090 pra isso não fecha a conta. O perigo da consultoria é vender self-hosted pra quem deveria estar usando API.

Custos reais que ninguém menciona:

RTX 4090 (24GB VRAM): ~R$ 15.000 — roda bem modelos até 13B
Para 70B: precisa de 2x 4090 ou A100 (R$ 80.000+)
Quantização Q4 reduz ~15-20% da qualidade — ok pra sumarização, ruim pra geração complexa
Infra de produção não é "instalar Ollama e pronto" — precisa load balancing, health check de GPU, queue pra não dar OOM

Sobre o modelo de negócio: funciona, mas é nichado. O cliente-alvo geralmente já tem infra on-premise e budget pra hardware. O volume de clientes assim no Brasil é pequeno.

Uma dica prática: use Microsoft.Extensions.AI no .NET — abstrai o provider. O mesmo código funciona com OpenAI, Ollama ou Azure AI. Facilita migrar o cliente entre cloud e local sem refatorar.