Li a matéria original e li por cima o artigo original e tenho minhas dúvidas sobre a confiabilidade dos resultados. 

De acordo com o que eu entendi, a métrica principal é o tempo de realizar a ação dado o prompt recebido, é dito que quanto mais estruturado o prompt melhor é o resultado e prompts bagunçados menor a confiabilidade. 

Os prompts que li que estão citados no artigo, são simples e eles são muito claros sobre o que precisa realizar. 

Outro ponto que acho importante levantar, é que os modelos novos dentro do último dois anos tiveram mudanças na arquitetura que levaram a adição de novos processos antes de gerar a resposta definitiva, por exemplo:
- O LLM chama modelos especialistas em um assunto para compor o resultado do LMM, como modelos especialistas em cálculo de matemática. 
- Adição de scripts para executar em um ambiente virtual para verificar a resposta e estender o contexto.

Ao me ver, parece muito mais um resultado de melhoria do prompt e sistemas de apoio, do que uma melhora realizada no LLM em si.

Claro que essas melhorias tem limite, então a previsão da pesquisa provavelmente não será realizada.

Li a matéria original e li por cima o artigo original e tenho minhas dúvidas sobre a confiabilidade dos resultados. De acordo com o que eu entendi, a métrica principal é o tempo de realiz...