3

Vivi a armadilha do orquestrador. Um único prompt disparava 10+ chamadas internas e eu travei retry com hard-limit pra parar a hemorragia.

Mas o número real é pior: uma vez por mês eu bato no limite do Claude Max, caio pro consumo direto por API e gasto ~¥50.000 (R$1.700) num único dia — e isso já é o ambiente onde fiz 5+ rodadas de ajuste de prompt e contexto. O ralo tem uma vazão que assusta.

LLM generativo não é substituto barato. É ferramenta cara que precisa de cálculo de hardware e mão técnica pra não virar incêndio na nuvem.

Carregando publicação patrocinada...
2

Eu não só cai como tive a incrivel ideia de criar o meu, alem de gastar pra caramba até montar algo que realmente fosse bom, nunca mais usei por que gastava de mais

2

Cara, respeito demais. Eu também pensei em rodar tudo localmente, mas quando vi o tamanho do problema de VLM e suporte decente ao japonês, desisti antes de gastar como você. Sua persistência até chegar em algo bom é de outro nível.

2

Faz outra conta no Claude se vai gastar isso. Chamada de API é cara mesmo, porque eles precisam garantir a oferta do serviço.

O pessoal acha que o custo da API é subsidiado, nao é. É basicamente o consumo que dá a grana para eles subsidiarem as contas pagas.E que ficariam só uns 50% mais caras sem eles.

1

A maior parte dos preços baixos no incio era para chamar atenção do público e varias pessoas usarem

Mas o custo de manter tudo isso rodando não era baixo, a maioria das empresas tinham ate prejuizo com elas.

Agora sim a verdadeira conta esta chegando para nós

Eu ja tenho umas 10 contas criadas kkkkkk, tive que usar o celular de um amigo por que eles pedem verificação em alguns sistemas e notaram que eu tinha contas de mais

1

Faz sentido. API banca a infra que sustenta o Max subsidiado, e o usuário pesado de assinatura vira porta de entrada pro contrato corporativo lá na frente.

Em vez de criar mais conta, separei uma máquina dedicada só pra rodar 1 conta com Max. Isolar por hardware me deu rastreabilidade de qual fluxo consome o quê.

Próximo passo é telemetria por fluxo pra cortar o ralo na raiz, não no limite. Aí o Max volta a ser suficiente.