3 min de leitura ·

Sou gestor, não programador. Usei IA agêntica para validar (e começar) a virada de uma fábrica de software hospitalar

Contexto rápido, porque pesa no que vem: sou administrador e lidero há ~15 anos a fábrica de software de uma rede hospitalar. Não escrevo código de profissão. Time pequeno, sistema grande (legado de mais de uma década, rodando em 40+ unidades).

Este post é o relato técnico de como saímos do ceticismo para a conversão de módulos reais — e do método que usamos. Não é venda. É relato, e estou aqui para apanhar nos comentários (de preferência com fundamento).

O problema
Manter uma equipe pequena e de alta performance entregando valor num sistema gigante é uma pressão constante. Quando o mundo agêntico ganhou escala em 2025, a pergunta não era "isso é legal?", era: dá pra colocar isso pra trabalhar sem parar a operação?

O método: muitos experimentos pequenos
Em vez de uma grande prova de conceito, abri dezenas de projetos isolados e descartáveis, cada um testando uma hipótese específica:

este tipo de módulo a IA dá conta?
com qual arquitetura o resultado se sustenta?
qual a qualidade real do código gerado? e dos testes?

Cada projeto respondia uma pergunta. O que dava certo virava padrão; o que falhava custava barato. Muitas apostas pequenas e verificáveis no lugar de uma grande aposta cega.

Isso é o oposto de "vibe coding". É método de fábrica aplicado à própria adoção da IA.

Stack e escolhas
Nos experimentos, o padrão que se firmou foi:

Monorepo: Bun + Turborepo
Front: React + TanStack Router + Tailwind/shadcn
Back: Hono + tRPC
Dados: PostgreSQL + Drizzle
Testes: Vitest + Playwright

E a escolha mais controversa (onde quero o debate): não fomos de LangChain/LlamaIndex. Montamos nosso próprio fluxo agêntico sobre Claude Code + Skills, com rastreabilidade e checkpoints de revisão. Aposta deliberada em método e controle em vez de framework genérico.

O que de fato fizemos
Saí dos experimentos e fui para a conversão de módulos do sistema hospitalar real. Já desenvolvi 2 frentes.

Sendo honesto para não inflar: está em andamento, não é "tudo em produção nas 40+ unidades". É construção de verdade, não maquete — mas é processo, não bandeira de vitória.

O que me surpreendeu

Velocidade e qualidade bem acima do que eu, cético, esperava.
O gargalo deixou de ser "escrever código" e virou especificar bem, revisar e medir.
O papel do arquiteto (trabalho lado a lado com o André Lins) ficou mais importante, não menos.
Onde eu sei que vou apanhar (e quero apanhar)
"Gestor não-programador não tem como avaliar a qualidade do que a IA gera." — é uma crítica legítima. Venham com ela.
Manutenção de longo prazo do código gerado por agente: é a pergunta em aberto que mais me tira o sono.
Onde o método quebra em escala? É o que estou tentando descobrir.

Escrevi uma versão mais "de gestão" dessa virada (um manifesto): https://mdemian1972.substack.com/p/enquanto-a-ia-agentica-e-vendida. Mas aqui no TabNews eu queria o recorte cru e o debate técnico.

Joguem pedra — fundamentada. É assim que eu aprendo.

Pilati

1 mês atrás

"Gestor não-programador não tem como avaliar a qualidade do que a IA gera." — é uma crítica legítima.

Mês passado, em um único projeto, gerei 300k linhas de código. (uma troca de linguagem de um projeto existente basicamente)

Essa migração teria um custo aproximado de 3 a 4 meses em uma equipe de 5 pessoas.

A IA fez a migração sozinha em 5 dias rodando ininterrupta.

Mesmo com regras de arquitetura muito bem definidas, exemplos do que é um bom código, documentação bem construída e um legado inteiro com 100% de cobertura de testes pra ela se basear:

O código gerado foi um lixo

E sim, a cada etapa tinha instruções para ela mesma fazer review completo, com uma política extensa, um review roda em 24 agentes paralelos, cada um procurando um problema específico.

Mesmo com todas essas instruções o resultado final não é um resultado de produção, é um prototipo que deve ser lapidado.

Algumas instruções foram simplesmente ignoradas, a IA fez o que era mais fácil em vez do correto (com o correto muito bem documentado)

Perdemos o trabalho? não! Aí que entra a chave da questão

Por mais que a qualidade cuspida seja péssima toda a fundação está lá, só precisa de um humano para lapidar, em uma semana revisamos 20%.

Sim, revisão minunciosa, arquivo por arquivo, só vai pro próximo quando aquele arquivo está impecável.

Redução final de 3 meses para 1 mês e pouco?

Valeu muito a pena.

Todo arquivo tem que ter um dono humano responsável por ele, que vai ser cobrado se der problema.

Review humano nunca deve ser ignorado, deve ser feito com um rigor muito maior com o código da IA.

neuroniosartificiais

2 meses atrás

Cara, parabéns pela iniciativa! Gestor usando IA agêntica pra realmente validar hipóteses na prática — e não ficar só no hype — é raro de ver. O approach de "apostas pequenas e verificáveis" faz todo sentido, principalmente em healthcare onde erro é caro.

Achei muito certeiro o ponto de "o gargalo deixou de ser escrever código". Passei pela mesma conclusão — o gargalo real agora é a qualidade da especificação que você dá pro agente. Comecei a usar uma estrutura chamada CTRF (Contexto, Tarefa, Restrições, Formato) pra padronizar como comunico com IA e a diferença foi enorme.

Escrevi sobre isso aqui no TabNews: https://www.tabnews.com.br/neuroniosartificiais/descobri-um-metodo-pra-parar-de-receber-respostas-ruins-de-ia-e-quero-a-opiniao-de-voces

Vocês estão usando alguma forma de padronizar a comunicação com os agentes na fábrica?