Projeto bem interessante e a motivação faz sentido, especialmente a ideia de... · MadrasLe

Projeto bem interessante e a motivação faz sentido, especialmente a ideia de tornar o uso de agentes mais explícito e auditável do que já é (plan/execute/validate, diffs, rollback etc).
Só um ponto importante: a instabilidade/imprevisibilidade de LLMs é algo muito difícil (quase impossível) de “resolver” apenas com camadas de wrapper/prompting em alto nível.
Na prática, o fator limitante costuma ser muito mais o modelo subjacente (como foi treinado, SFT/RLHF, alinhamento) do que o orchestration em cima.
Mesmo com temperature=0, existe não-determinismo em produção por efeitos de batching dinâmico, paralelismo e floating-point (FP16/BF16 etc). Determinismo real geralmente exige controle mais baixo na stack de inferência.
Acho que o valor do projeto está mais em boas práticas de engenharia (diffs explícitos) do que em tornar o LLM “determinístico”.
No geral, parabéns pela iniciativa só acho bom calibrar a promessa para não parecer que prompt/software layer resolve limitações fundamentais do modelo ou tornam ele determistico.

Concordo com a crítica. Não-determinismo real não é algo que se resolve no nível de prompting ou orchestration, especialmente quando entra batching, paralelismo e limitações numéricas do stack de inferência.
A proposta do Akita não é “tornar o LLM determinístico”, mas reduzir o espaço de comportamento implícito e tornar divergências observáveis, auditáveis e reversíveis no nível do sistema.
Em vez de tentar eliminar a instabilidade do modelo (o que é irrealista), o foco é:

estruturar explicitamente o processo de decisão,

registrar diffs e efeitos colaterais,

permitir rollback,

e identificar onde e quando o modelo saiu do esperado

Realmente acabei colocando ele como uma solução para isso, por que infelizmente esse é o melhor que podemos fazer por enquanto

Ou seja, o ganho está mais em engenharia e controle de falhas do que em prometer correções das limitações fundamentais do modelo. Se a comunicação sugeriu o contrário, vale mesmo ajustar.