A analogia com boilerplates de SPECs faz bastante sentido, é exatamente como está evoluindo aqui também. Você começa do zero uma vez, depois replica o padrão.
A parte sobre um novo modelo de processo para IA é o ponto mais interessante. Acho que o gargalo maior ainda é auditabilidade: saber se o que o agente gerou segue boas práticas sem precisar revisar linha a linha. Testes ajudam, mas não cobrem tudo.
Você já tentou alguma abordagem sistemática para isso, além dos testes, tipo review automatizado por outro agente?