A ideia não é ruim, mas eu notei que o LLM é muito enviesado para fazer o que você pede. Então quando você pede para criticar, ele vai inventar motivos para criticar mesmo quando não tem motivos para isso.

Exemplo: já experimentei fazer LLM apontar erros técnicos em textos e, quando não havia erros, ele alucinava e inventava erros que não estavam no texto. Ou até pegava trechos que realmente estavam no texto, mas inventava problemas com justificativas erradas.

O LLM é muito tendencioso, ele erra até mesmo tentando apontar erros. Para mim, a única solução que realmente "funciona" é a iteração: pedir -> revisar -> ajustar -> loop.

Qualquer experimento que eu fiz pedindo diretamente para criticar, ser crítico etc. não deu bons resultados.

A ideia não é ruim, mas eu notei que o LLM é muito enviesado para fazer o que você pede. Então quando você pede para criticar, ele vai inventar motivos para criticar mesmo quando não tem...