4

Meus 2 cents extendidos,

Estou mais inclinado ao uso de um modelo barato (local ?) para tudo.

A preocupacao (alem do custo) eh: latencia.

Um modelo local (p.ex. instruct) ate consegue rodar uns 50 tokens/s (ou mais se tiver GPU) - o que para um unico usuario ate vai, mas se juntar 50 usuarios simultaneos, como faz ?

Minha ideia: contratar uma VM com GPU equivalente (B, H, etc), colocar um ou mais modelos locais/instruct para rodar e usar esta infra para a analise - mas para ser viavel precisa ter um minimo de usuarios pagantes. A vantagem eh que, imaginando mercado coorporativo, da para fazer seg/sex, 8/18 VM mais pesada e fora do horario com VM mais leve (e mais barata) ou ate subir sob demanda.

Estava pensando em algo usando o OmniRoute/LiteLLM ou algo assim para captar o trafego (fazendo o papel que o Squid faz para trafego web) e entao direcionar para esta(s) VM(s) - ou algo do genero.

Saude e Sucesso !


Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

Carregando publicação patrocinada...
3