4

Assim como as outras pessoas já manifestaram, o argumento dos "tokens ilimitados" soa bom demais para ser verdade. Claro, em algum momento deveria aparecer alguém com uma "tarifa plana" para consumo de IA, mas me parece que o público que está lendo esse post seja um tanto cético ainda.

Uma coisa de que senti falta foi um ambiente de test-drive: no mínimo um lugar para fazer um POST de um prompt e receber a resposta, para avaliar minimamente a qualidade das respostas.

Uma maior disponibilidade de modelos também cairia bem.

Fora isso, vou testar teu serviço hoje à noite, substituindo o Cerebras por ele para comparar.

Atualização

Testei o teu serviço e tenho algumas considerações a fazer:

  1. Não dá para listar os modelos disponíveis (até mesmo para saber a string exata para usar na chamada da API).
  2. Configurei timeout de dois minutos e foi insuficiente para o teu sistema enviar uma resposta.
  3. Muitos links de ajuda (guias, referência de API) estão linkando para #: não dá para se virar sem o mínimo de documentação.

No fim das contas, por que eu pagaria 129 Dólares a você se eu posso pagar "apenas" 100 no Claude e ter respostas instantâneas, e o próprio ambiente do Code disponível?

Enfim, só estou comentando porque você pediu feedback. Aliás, criei conta aqui só para comentar e te dar feedback. Espero ter sido útil.

Carregando publicação patrocinada...
1

Sua resposta foi muito util, nesse periodo fiz varias melhorias, ja vejo algum uso continuo.

Questao de tempo verifiquei um problema nas filas e processamento por vllm. Realmente houve um periodo ali quando anunciei que aconteceu isso - resolvido.