Li a matéria original e li por cima o artigo original e tenho minhas dúvidas sobre a confiabilidade dos resultados.
De acordo com o que eu entendi, a métrica principal é o tempo de realizar a ação dado o prompt recebido, é dito que quanto mais estruturado o prompt melhor é o resultado e prompts bagunçados menor a confiabilidade.
Os prompts que li que estão citados no artigo, são simples e eles são muito claros sobre o que precisa realizar.
Outro ponto que acho importante levantar, é que os modelos novos dentro do último dois anos tiveram mudanças na arquitetura que levaram a adição de novos processos antes de gerar a resposta definitiva, por exemplo:
- O LLM chama modelos especialistas em um assunto para compor o resultado do LMM, como modelos especialistas em cálculo de matemática.
- Adição de scripts para executar em um ambiente virtual para verificar a resposta e estender o contexto.
Ao me ver, parece muito mais um resultado de melhoria do prompt e sistemas de apoio, do que uma melhora realizada no LLM em si.
Claro que essas melhorias tem limite, então a previsão da pesquisa provavelmente não será realizada.