Capacidade dos LLMs está dobrando a cada sete meses, segundo pesquisa · NewsletterOficial

Um estudo recente envolvendo modelos amplamente reconhecidos, como o GPT-4o e o Claude 3.7 Sonnet, indica que a capacidade dos principais LLMs está dobrando a cada sete meses, segundo uma métrica desenvolvida pelos próprios pesquisadores.

A equipe estima que, até 2030, os modelos mais avançados poderão executar com 50% de confiabilidade tarefas de software que hoje exigiriam de um ser humano cerca de um mês de trabalho, considerando jornadas semanais de 40 horas — e tudo isso em um ritmo significativamente mais rápido, podendo levar apenas alguns dias ou até mesmo algumas horas.

Essas tarefas incluem atividades complexas, como fundar uma empresa, escrever um romance ou melhorar significativamente outro modelo de linguagem.

Por outro lado, os pesquisadores destacam que tarefas mais “bagunçadas” — aquelas que se assemelham aos desafios do mundo real — continuam sendo mais difíceis para os LLMs. O ritmo de avanço também pode ser limitado por fatores como disponibilidade de hardware e desenvolvimento na área de robótica.

Li a matéria original e li por cima o artigo original e tenho minhas dúvidas sobre a confiabilidade dos resultados.

De acordo com o que eu entendi, a métrica principal é o tempo de realizar a ação dado o prompt recebido, é dito que quanto mais estruturado o prompt melhor é o resultado e prompts bagunçados menor a confiabilidade.

Os prompts que li que estão citados no artigo, são simples e eles são muito claros sobre o que precisa realizar.

Outro ponto que acho importante levantar, é que os modelos novos dentro do último dois anos tiveram mudanças na arquitetura que levaram a adição de novos processos antes de gerar a resposta definitiva, por exemplo:

O LLM chama modelos especialistas em um assunto para compor o resultado do LMM, como modelos especialistas em cálculo de matemática.
Adição de scripts para executar em um ambiente virtual para verificar a resposta e estender o contexto.

Ao me ver, parece muito mais um resultado de melhoria do prompt e sistemas de apoio, do que uma melhora realizada no LLM em si.

Claro que essas melhorias tem limite, então a previsão da pesquisa provavelmente não será realizada.