3

Giga-Token - provedor de LLM ilimitado - dicas para entrar no mercado

A intenção deste texto não é simplesmente propaganda, mas pedir dicas - e também oferecer algo bastante competitivo para devs.

Trabalhando como dev há mais de 20 anos, incluindo 10 anos de hospedagem de sites, tive a seguinte idéia:

  • Provedores grandes como AWS dominaram o mercado em geral, mas provedores de infra de hospedagem de sites ainda sobrevivem.
  • Provedores de LLM iniciaram dominados pelos gigantes, como poderiam entrar provedores pequenos no jogo ?

Estava com tempo livre, e, agora com a maravilha do vibe-coding, resolvi oferecer minha infra como serviço criando o Giga-Token

O provedor oferece uma camada grátis "ilimitada", que tem menor prioridade na fila de execução - o que pode demorar alguns segundos a mais caso todos os consumidores estejam em uso. Em outras palavras o upgrade para planos pagos se torna válido se é necessária resposta sempre rápida - como serviços ao vivo / em produção.

Iniciei oferecendo o GLM-4.5 com 106b parâmetros, qualidade muito boa, velocidade boa. Também deixei rodando LLMs menores em GPUs menores como llama3.1:8b.

Testei bastante, 500 execuções consecutivas com sucesso, tenho amigos que estão se divertindo com seus agentes.

Já está tudo pronto, rodando OK em produção. Agora fica minha questão - estou com uma baixa adesão de cadastros - mesmo no free - e peço sua ajuda - o que poderia ser melhorado / adicionado para ser mais atraente ao público ?

O sistema já conta com afiliados, o que leva a quem indicar ganhar um percentual dos pagamentos.

Muito obrigado pelo seu tempo e sua ajuda!!!

Carregando publicação patrocinada...
4

Assim como as outras pessoas já manifestaram, o argumento dos "tokens ilimitados" soa bom demais para ser verdade. Claro, em algum momento deveria aparecer alguém com uma "tarifa plana" para consumo de IA, mas me parece que o público que está lendo esse post seja um tanto cético ainda.

Uma coisa de que senti falta foi um ambiente de test-drive: no mínimo um lugar para fazer um POST de um prompt e receber a resposta, para avaliar minimamente a qualidade das respostas.

Uma maior disponibilidade de modelos também cairia bem.

Fora isso, vou testar teu serviço hoje à noite, substituindo o Cerebras por ele para comparar.

Atualização

Testei o teu serviço e tenho algumas considerações a fazer:

  1. Não dá para listar os modelos disponíveis (até mesmo para saber a string exata para usar na chamada da API).
  2. Configurei timeout de dois minutos e foi insuficiente para o teu sistema enviar uma resposta.
  3. Muitos links de ajuda (guias, referência de API) estão linkando para #: não dá para se virar sem o mínimo de documentação.

No fim das contas, por que eu pagaria 129 Dólares a você se eu posso pagar "apenas" 100 no Claude e ter respostas instantâneas, e o próprio ambiente do Code disponível?

Enfim, só estou comentando porque você pediu feedback. Aliás, criei conta aqui só para comentar e te dar feedback. Espero ter sido útil.

1

Sua resposta foi muito util, nesse periodo fiz varias melhorias, ja vejo algum uso continuo.

Questao de tempo verifiquei um problema nas filas e processamento por vllm. Realmente houve um periodo ali quando anunciei que aconteceu isso - resolvido.

3

eu diria que teria de ter modelos mais "novos", mesmo se forem pequenos ou médios.
ex: não deve ser difícil encontrar modelos mais novos que o GLM-4.5 e inclusive menores que ele.

2
1

Assim como o mercado de hospedagem se inicia com revendas e aluguel de hardware, nao ha outro caminho. A medida que ganha volumez, uma hora se torna viavel comprar hardware.

1

Meus 2 cents,

Pergunta de boa: Qual o diferencial em usar teu provedor ao inves do openrouter ou huggingface ?

P.ex. O openrouter tem modelos free (com quota razoavel) e bom tempo de resposta.

E nao venha com "ilimitado", que se comecar a queimar tokens nao da para segurar.

Saude e Sucesso !

1
1

Nao cheguei a testar, mas achei muito interessante a ideia. Eu particularmente uso OpenRouter pros meus projetos em produção, e se o giga-tokens resolvesse um problema que eu tenho, eu concerteza migraria - que é a questão do TPS

Apesar disso ser diretamente relacionado ao proprio modelo em partes, percebo que existe bastante diferença entre provedores, e pra produção além de precisar ser estável e bom, a velocidade na qual os tokens sao gerados e consumidos é fundamental pra experiência do usuario, e consequentemente pra agregar valor.

1
1

malvezzi,

Na minha experiência o TPS é bom mas ainda não criei métricas. Vou anotar isso nos meus TODO e em breve adiciono essa informação a página de modelos. Muito obrigado pela idéia.

Se não for te dar muito trabalho por favor teste o serviço e me dê sua opinião.

0
1
0