Temos utilizado em projetos reais, complexos e com milhares de linhas de codigo.
Seu argumento sobre limitação de janela de contexto/tokens está correto. Mas é justamente aqui que entra a necessidade de criar métodos de trabalho que contornem isso.
Listo alguns exemplos que temos aplicado:
No Visual Code, plug-on Cline.
No Cline, API da OpenAI, API da Anthropic , Ollama e até API Gemmini.
Cada API com um propósito!
Ollama com Modelo Mistral:latest, rodando local, sendo usado para:
Ler códigos da pasta do projeto;
Gerar arquivo README.md descrevendo o projeto.
Para cara "pod" com suas classes gerar um .md descrevendo as user stories, diagrama de classes e diagrama de sequência (estes 2 últimos em formato json para economizar tokens).
Fase 1: Arquivos de código muito extensos, com várias classes, precisam ser adaptados ao SOLID. Por exemplo, código gerado pelo entity framework com mais de 1000 linhas: foi preciso criar, via GEN-Ai, código em python (por ser mais simples) para quebrar esse código em arquivos menores respeitando SOLID em termos de cada arquivo 1 classe.
Fase 2: criação de uma excelente memória de contexto sem ter que ficar a cada iteração lendo todo o código (e na instrução base do cline você coloca essa orientação de onde buscar o contexto).
Fase 3: Trabalhar por user story, de preferência pequenas. Evitando rotinas do tipo "faça todo o sistema" ou "revise todo o projeto". Trabalhe em "tokens" do código, ou seja, uma classe por vez.
Fase 4: Melhoria contínua: aperfeiçoe semanalmente sua rotina de trabalho com GEN-Ai , pois a cada dia aprendemos algo novo e devemos incorporar isso no método de trabalho.
Faze 5: Com o trabalho concluído em um determinado conjunto de user stories, quando começamos a perceber que começou "mundo do chapeleiro maluco" (entropia), no Cline, está na hora de iniciar uma nova task para ZERAR a janela de contexto e dar continuidade de onde parou.
Mas sim, concordo com você que sempre vai ter momento em que o Dev precisará assumir integralmente o controle e meter a mão na massa. Mas a entrega de valor do uso de GEN-AI não está na tentativa de que 100% do trabalho foi automatizado, pelo contrário. Se com essa rotina de trabalho foi possível resolver 20% a 50% do trabalho, acho que já tá valendo.