2

Boa, esse proxy é justamente o caminho que eu também venho ruminando.

O wrapper que usei pra medir os tokens já é meio um proxy mínimo: ele lê o input_tokens de cada turno antes de eu seguir. Falta dar a ele o poder de carregar skills sob demanda, que é o teu ponto.

Mas o que me trava é o custo do próprio proxy: se ele analisa cada requisição com um modelo, vira um novo imposto por turno em cima do que eu acabei de cortar.

To inclinado a separar: segurança num modelo local barato, e otimização de prompt no fluxo principal. Tu rodaria tudo num modelo só ou separaria as duas coisas?

Carregando publicação patrocinada...
4

Meus 2 cents extendidos,

Estou mais inclinado ao uso de um modelo barato (local ?) para tudo.

A preocupacao (alem do custo) eh: latencia.

Um modelo local (p.ex. instruct) ate consegue rodar uns 50 tokens/s (ou mais se tiver GPU) - o que para um unico usuario ate vai, mas se juntar 50 usuarios simultaneos, como faz ?

Minha ideia: contratar uma VM com GPU equivalente (B, H, etc), colocar um ou mais modelos locais/instruct para rodar e usar esta infra para a analise - mas para ser viavel precisa ter um minimo de usuarios pagantes. A vantagem eh que, imaginando mercado coorporativo, da para fazer seg/sex, 8/18 VM mais pesada e fora do horario com VM mais leve (e mais barata) ou ate subir sob demanda.

Estava pensando em algo usando o OmniRoute/LiteLLM ou algo assim para captar o trafego (fazendo o papel que o Squid faz para trafego web) e entao direcionar para esta(s) VM(s) - ou algo do genero.

Saude e Sucesso !


Este post foi favoritado via extensão TABNEWS FAVORITOS

Tem curiosidade sobre IA ? Da uma olhada no meu LIVRO: IA PARA ENGENHEIROS

3