Validando Ideia: Uma API de IA ultra-leve rodando SLMs locais com foco em custo-benefício para Micro-SaaS · DaniloASantos

Fala, pessoal!

Gostaria de compartilhar com a comunidade um projeto que estou desenvolvendo e obter o feedback sincero de vocês sobre a viabilidade comercial e técnica da ideia.

O Problema

Hoje em dia, integrar inteligência artificial (LLMs) em pequenos projetos ou Micro-SaaS tem um custo de entrada complexo. Se você usa APIs de terceiros (como OpenAI ou Anthropic), fica refém de cobranças em dólar, variações de preço por chamadas e chaves expostas. Se tenta rodar uma infraestrutura própria de IA com GPUs parrudas na nuvem, a conta chega antes mesmo de você conseguir os primeiros clientes pagantes.

A Proposta:

A ideia principal é oferecer uma API de IA focada em Small Language Models (SLMs) altamente otimizados e quantizados, rodando de forma enxuta e eficiente em servidores de baixo custo.

O foco é atender desenvolvedores independentes e criadores de Micro-SaaS que precisam de tarefas específicas (como análise de sentimento, classificação de texto, extração de dados e automações leves) sem precisar pagar fortunas.

Para alcançar a máxima performance e o menor consumo de recursos possível, montei a arquitetura utilizando a seguinte stack:

Fastify (Node.js/TypeScript): Escolhido a dedo em vez do Express ou NestJS pela velocidade bruta, baixíssimo overhead de memória e serialização nativa ultrarrápida através do TypeBox (que unifica validação em tempo de execução e tipagem estática).
Ollama / Llama.cpp: Rodando os modelos em C++ em segundo plano para o consumo eficiente de CPU/RAM.
PostgreSQL: Para o gerenciamento seguro e tipado do banco de dados.

Arquitetura Baseada em Créditos Pré-pagos: Um modelo de cobrança híbrido (Pay-as-you-go), onde o usuário só consome o que usa com base no número de tokens processados nativamente pelo motor da IA.

Modelos Disponibilizados na Grade Atual:

Quantum Tiny (baseado em Phi-3 Mini): Focado em velocidade extrema e tarefas super diretas (1 crédito por token).
Quantum Base (baseado em Qwen 3.5 3B): O melhor equilíbrio para uso geral e geração de textos estruturados (3 créditos por token).
Quantum Pro (baseado em Gemma 2 9B): Para raciocínio um pouco mais complexo e lógica refinada (10 créditos por token).

Detalhes de Segurança e Performance Implementados

Para evitar o colapso do banco de dados com milhares de requisições concorrentes apenas para checar chaves, adotei o padrão de Opaque API Keys. O desenvolvedor recebe um token legível (ex: qk_live_...), mas no banco guardamos apenas o hash SHA-256. Além disso, incluí uma validação financeira pre-flight no endpoint de inferência: estimamos o custo máximo com base no tamanho do prompt + maxTokens solicitados e barramos a requisição imediatamente se a carteira estiver zerada, protegendo o servidor de processar inferências pesadas de graça.

Onde preciso da ajuda de vocês (Feedback):

Como a comunidade do TabNews tem muita gente com experiência real de mercado criando SaaS, eu queria validar alguns pontos:

Vocês utilizariam uma API dessas? Sabendo que os modelos são menores (SLMs de 3B a 9B parâmetros), o custo drasticamente reduzido compensaria a troca em relação a uma API gigante de mercado para as tarefas do dia a dia do seu sistema?

Modelo de Cobrança: A precificação estritamente baseada em créditos pré-pagos (estilo créditos de SMS/Twilio) faz sentido para vocês, ou prefeririam uma assinatura mensal fixa com teto de requisições?

Stack: Alguma recomendação ou ressalva sobre gargalos rodando essa infraestrutura do Fastify dividindo CPU com instâncias quantizadas do Ollama em ambiente de produção?

Obrigado pelo tempo e espaço! Qualquer crítica construtiva é muito bem-vinda.