Como colocar Agentes de IA em produção (sem falir nem alucinar)

Construir um protótipo com IA é trivial. Qualquer pessoa com uma API key e um prompt razoável consegue criar um chat que "funciona". O problema começa quando o primeiro cliente real pergunta algo fora do treino, quando o custo por usuário supera o preço do plano, ou quando uma mudança no prompt que "parecia melhor" quebra dez outros casos de uso.

A Parte II do e-book AI Native Developer acaba de ser lançada e o foco é exatamente este: sair da demo e chegar na produção com engenharia de verdade.

Abaixo, faço uma síntese do que você vai encontrar nos novos capítulos (do 11 ao 17):

1. Embeddings & RAG (Busca por significado)

Esqueça o LIKE '%palavra%'. No mundo nativo de IA, buscamos por significado geométrico. O capítulo 11 explica como texto vira vetor e o 12 mostra como o RAG (Retrieval Augmented Generation) ancora o modelo em fatos reais, privados e atuais. A lição aqui: contexto infinito não substitui retrieval; ele muda o teto, mas não a disciplina.

2. Memória e Tool Calling (Relacionamento e Ação)

Um agente amnésico é inútil para SaaS. O capítulo 13 trata de Memory (short-term, episodic, semantic) e como gerir isso sob a LGPD. Já o capítulo 14 aborda Tool Calling: como transformar prosa em transações determinísticas via JSON Schema. O agente deixa de descrever o que faria e passa a disparar a ação de fato.

3. Evals: O CI dos Agentes

Você não faz deploy de código sem testes. Por que faria de um agente? O capítulo 15 introduz os Evals. Sem medirmos qualidade contra Golden Datasets e usarmos LLM-as-a-Judge, "melhorar o prompt" é chute, não engenharia.

4. Observabilidade Agêntica

Quando um agente falha, não há stack trace. Há uma decisão estranha no meio de dez passos. No capítulo 16, mostro como instrumentar traces que revelam exatamente onde o fluxo desandou: foi o retrieval que voltou baixo? O rerank que falhou? O prompt que regrediu?

5. Cost Engineering (O lucro mora aqui)

Um produto que não fecha a conta é um experimento subsidiado. O capítulo 17 fecha o livro com as quatro alavancas de custo: Prompt Cache, Model Routing, Batching e Token Optimization. Na prática: como reduzir o custo em até 88% mantendo a mesma qualidade.

Este guia foi construído em cima de um estudo de caso real (IgnitionStack), mostrando código, arquitetura e trade-offs honestos.

Se você quer dominar o stack agêntico e parar de tratar a IA como uma caixa-preta, a Parte II está disponível aqui:

👉 AI Native Developer - Parte II: Em Produção

O conteúdo é open-source e focado em quem já programa e quer subir o nível na era da IA.

O que vocês têm usado para medir a qualidade dos prompts de vocês? Alguém já rodando evals sistemáticos no CI? Vamos trocar essa ideia nos comentários.

Anderson Lima | lemon.dev