Isso não é muito novo, já inventariam dezenas de métodos assim, no fim gasta um caminhão de tokens e quando erra e erra muito, é multiplicado.
Serializar com testes e checkpoint com revisão humana parece mais eficiente, projetos reais tem muitos gaps de informação, ambiguidades, ou mudanças bruscas.
Criar um fluxo de loop que estende a execução na sessão me parece que só vai degradar a eficiência do agente e acumular erros.