Pitch: Kaizen: retrospectivas para agentes de código · marquesds

E aeee! Acabei de publicar um pequeno projeto de fim de semana para ajudar a melhorar codebases para agentic coding → Kaizen: https://github.com/marquesds/kaizen

Minhas apostas são:

Mesmo com várias técnicas de harness engineering sendo compartilhadas, cada codebase é diferente e tem sua própria história. Arquitetura, docs, testes, cantos afiados e modos de falha dos agentes são diferentes em cada repo. Então cada codebase provavelmente precisa do seu próprio loop de melhoria contínua para agentic coding.
Deveríamos conseguir olhar para trás e analisar quão bem ou mal nossos agentes performaram. Se um agente se perdeu, ignorou contexto, mexeu nos arquivos errados, pulou testes ou precisou de correção humana demais, isso é sinal.

Então criei o Kaizen com:

• Coleta e análise de telemetria de code agents
• Retrospectivas de agentes, parecidas com retros ágeis, mas focadas em performance de agentes
• Recomendações de melhoria de harness baseadas no comportamento real dos agentes
• Export opcional para Datadog, PostHog, etc, para que times tenham insights entre codebases

Uma coisa que me ajudou MUITO foi usar Quint (BTW, criado e mantido pela Gabriela Moreira) para verificar partes do Kaizen. Ter uma spec executável me deu um feedback loop mais apertado e permitiu usar LLMs mais fracos, como Composer 2, em boa parte da implementação.

Agentic coding não será vencido apenas por modelos melhores. Também será vencido por harnesses melhores.

Quais são suas apostas em harness engineering?