Executando verificação de segurança...
13

[Benchmark] Fiz um LLM Coder Router e tive ~76% menos CUSTO que Sonnet e Codex e com entrega similar.

banner

Olá, malta do TabNews! 👋

Sou o dev por trás do claudin.io, um roteador simples e esperto para LLMs que usa o https://openrouter.ai pra direcionar queries pros modelos certos com base na complexidade da tarefa. Fiz isso pra mim mesmo, curando prompts de roteamento e uma lista de modelos que equilibram custo e qualidade. A ideia é compartilhar essa "curadoria" por só $3,99/mês! Pra quem, como eu, quer rodar IA sem faturas exorbitantes, mas com resultados que não envergonham. Não é pra bater de frente com os titãs como o Claude Sonnet 4.5 (que é um monstro), mas pra ser o sidekick confiável em tarefas cotidianas, poupando seus agentes premium pros momentos críticos.

Já tenho usado, inclusive no próprio site do claudin.io.

Pq criei o claudin.io?

Por causa dessa imagem:

claude-error

E também tenho um apelido para o Claude que é Claudineo, então dai vem o nome Claudin.io.

Sobre o Benchmark

Pra validar, botei o claudin.io pra suar num benchmark prático: um desafio de codificação simples, mas com pegadinhas de validação e renderização. Compartilhei o benchmark completo com os códigos gerados e testes no Google Drive, baixem e testem vocês mesmos! O foco? Comparar custo, performance e se o resultado "cola" na real.

Usei o https://kilocode.ai como base mesmo tendo a certeza de que eles poderiam ter feito melhor ou mais rápido com os seus CLIs (claude-code e codex). Minha intenção era mantê-los no mesmo "campo".

O Desafio: Um Servidor HTTP Mínimo pra Conversão de Unidades

O prompt era direto: implementar um server Node.js (Express, single-file) que serve uma página HTML pra converter Celsius/Fahrenheit. GET / com form, validação de input, resultado com 2 casas decimais, e tratamento de erros (N/A pra inválidos). Sem deps extras, logs ou frescuras – só o essencial. Aqui vai o prompt completo pra contextualizar:

Implement a minimal HTTP server that serves an HTML page for unit conversion with the following requirements.
Task
	•	Language/stack: Node.js (>=18) with Express in a single file named server.js.
	•	Endpoint:
	◦	GET / returns an HTML page (no external assets) containing:
	▪	A <form> with:
	▪	A number <input> named value
	▪	A <select> named direction with options:
	▪	c_to_f (Celsius to Fahrenheit)
	▪	f_to_c (Fahrenheit to Celsius)
	▪	A submit <button>
	▪	When submitted (method GET), the server reads query params (value, direction), performs the conversion server-side, and renders the same page with:
	▪	The input fields prefilled with the submitted values
	▪	A bold line showing Result: <number> with exactly 2 decimal places
	•	Server details:
	◦	Listen on port from env PORT or default 3000.
	◦	Strictly no extra dependencies beyond express.
	◦	No external CSS/JS; inline CSS permitted.
	◦	Input validation:
	▪	If value is missing or not a finite number, show Result: N/A and display a small inline error under the input: Please enter a valid number.
Conversions
	•	Celsius to Fahrenheit: F = C * 9/5 + 32
	•	Fahrenheit to Celsius: C = (F - 32) * 5/9
	•	Result must always render with exactly 2 decimal places when valid.
Determinism constraints
	•	Do not print logs except the single line Server listening on port <port>.
	•	No comments in code.
	•	No additional files or routes.
	•	Do not minify HTML; keep it readable.
	•	Use CommonJS require style.
Output format
Return only one fenced code block with language hint javascript containing the complete server.js file. Do not include any explanation before or after the code block.
Quick acceptance checklist
	•	 Starts with const express = require('express')
	•	 Binds to process.env.PORT || 3000
	•	 Single GET / that renders HTML including the form and, if query present, the computed result
	•	 Result shows 2 decimals (e.g., 21.11)
	•	 Invalid/missing input shows Result: N/A and inline error text
	•	 No extraneous logs, comments, or files
Example manual test (not to be included in output)
	•	Start: PORT=5050 node server.js
	•	Open: http://localhost:5050/?value=100&direction=c_to_f → Result: 212.00
	•	Open: http://localhost:5050/?value=32&direction=f_to_c → Result: 0.00
	•	Open: http://localhost:5050/?value=abc&direction=f_to_c → Result: N/A and error visible

Videos deles agindo:

Claudin.io: https://youtu.be/r1sj6TaRTOk ✅✅

Sonnet 4.5: https://youtu.be/xPyqkAwBjX8 ✅✅✅

GPT-5-Codex Medium: https://youtu.be/osXGsLxszpw

Testei localmente: build de primeira, conversões exatas, validação funcionando. Simples, mas cobre os basics de um app web real.

Resultados: O Que Cada Um Entregou (e Custou)

Rodei o mesmo prompt, via OpenRouter. Aqui o breakdown:

MétricaClaude Sonnet 4.5claudin.io RouterOpenAI GPT-5 Codex Medium
Requests242422
Tokens586K299K399K
Gasto$0.444$0.034$0.446
Performance no DesafioExcelente: Código funcional + testes visuais extras (surpreendente!)Sólido: Código funcional, build OKFraco: Não terminou, build falhou na 1ª tentativa

Destaques sinceros:

  • Sonnet 4.5: Foi além! Gerou código perfeito e até simulou testes visuais (coisa de agente parrudo). Mas o custo? Uau, premium tem seu preço. Ideal pros jobs complexos, mas rate limits de horas/semanas matam o flow.
  • GPT-5 Codex Medium: Decepcionou. Parou no meio, não buildou direito. Tokens altos pra um resultado meia-boca, clássico de "quase lá, mas não".
  • claudin.io: Fiquei felizão com o output! Código direto ao ponto, sem frescuras, build na mosca. Não inovou como o Sonnet, mas entregou o que pedi, com tokens otimizados e custo irrisório. Economia de ~76% vs. os gigantes (0.444 → 0.034).

Screenshots do dashboard OpenRouter:

costs

Sonnet Dashboard
Sonnet: Poder bruto, mas fatura salgada.

Claudin Router
Claudin.io: Eficiente, low-cost, mesmo volume, bolso intacto.

Codex Dashboard
Codex: Tokens voando, mas entrega capenga.

Tabela de chaves pra transparência:

Modelo/ChaveGasto TotalLimite
Claude Sonnet 4.5 (sk-or-v1-e0e...)$0.444Ilimitado
OpenAI GPT-5 Codex (sk-or-v1-f95...)$0.446Ilimitado
Auth: claudin.io (sk-or-v1-6f...)$0.034Ilimitado

Por Que Isso Muda o Jogo (Sem Hipérbole)

Não tô aqui pra dizer que o claudin.io é "melhor" que Sonnet ou Codex, longe disso. O Sonnet é rei em profundidade (e me surpreendeu com aqueles testes extras). Mas pra tarefas como essa (codificação básica, protótipos rápidos), ele é um provedor acessível que mantém o custo controlado. Junte com um agente parrudo pros casos edge, e você tem: velocidade, economia e zero rate limit hell.

Desenvolvi isso porque cansei de escolher entre qualidade e falência. O roteamento curado (modelos + prompts) garante que queries simples vão pros "baratos/bons", e só escalam pros caros se precisar. Teste grátis no site, pluge sua API key do OpenRouter e veja na prática.

Vejam o benchmark no Google Drive aqui tem os códigos raw. O que rola com vocês? Já sofreram com custos de LLM?

Carregando publicação patrocinada...
2

Desculpa a ignorância. Mas o Claudin serve para eu adicionar uma chave de api da OpenAI, gemini etc... e ele faz esse router de qual melhor modelo pra aquela tarefa, é isso!?

Se é isso, eu to doido pra ver um modelo BR em uso realmente como o https://www.maritaca.ai/
Mas não acho nenhuma ide ou qualquer coisa que aceita API deles.

Enfim, parabéns pelo projeto, ele é incrível, como ta de usuários!? (Acredito que vou aderir quando entender melhor do que se trata)

---edit

Tentei criar uma conta free, deu esse erro abaixo:

Outra coisa, tirando o bug, processo de criar conta extremamente eficiente, click já me manda pro oauth.

2
2

Mas o Claudin serve para eu adicionar uma chave de api da OpenAI, gemini etc... e ele faz esse router de qual melhor modelo pra aquela tarefa, é isso!?

Basicamente ele usa o OpenRouter.ai que é um agregador de LLMs e com isso ele vai selecionando um gradiente de modelos para atender determinada tasks. Por exemplo, pra resumir uma resposta, ele não precisa de fato de um sonnet 4.5, mas pra planejar uma implementação mais complexa, talvez sim. E este é o trabalho do Claudin.io, encontrar um balanço entre preço e entregável.

2
1

Se você achou um bom equilibrio.. é isso.. infelizmente não tenho o Copilot e não tive boa experiência com os agentes deles. Geralmente usava o Windsurf, mas depois da treta com a compra/venda, acabei saindo.

Fui pra claude-code e fiquei muito satisfeito mas ele tem limite que pra mim é pouco e para ter mais preciso deixar lá 100 ou 200 dolares.. enfim, to num caso onde isso é muito e caro pro meu uso real..

Tai a razão do Claudin.io.. é um companheiro pra ir usando enquanto meu claude-code ta bloqueado.. e vou melhorando conforme vou percebendo problemas..

2
2

Oi Glauber, na essência, é a mesma ideia, mas talvez a metodologia seja diferente, por exemplo, eles usam um algoritmo/modelo da notdiamond.ai. No meu caso, eu estou construindo um algoritmo mais baseado em LLM, que procura através de um gradiente de peso o modelo que melhor se encaixa numa tarefa específica. Longe de ser perfeito, mas como tenho usado isso pessoalmente, estou sempre fazendo ajustes…

Amanha vou rodar o mesmo teste com o Auto Router pra testar

2
1

Logico! Hoje em dia eu uso um modelo generico mas pretendo explorar fine tunned model.

Basicamente cada modelo tem uma classificacao em varios aspectos como coding, seguir instrucoes e etc..

entao o modelo foca em dizer tipo de task é e o algoritimo vai normalizar isso para encontrar o modelo ideal..

Ainda trabalho pra refinar isso conforme vou usando.. e se tiver usuarios, pelo feedback deles...