A metodologia se destaca por utilizar dados sintéticos e por abordar o raciocínio em várias etapas, combinando RLHF (aprendizado por reforço com feedback humano, na sigla em inglês) com a otimização de dados de raciocínio através de PRMs (modelos preditivos de recompensa). O processo inclui coletar prompts apropriados, gerar etapas de raciocínio eficazes e pontuar precisamente milhares de conclusões usando recursos computacionais extensos. Há rumores de que grandes empresas de tecnologia estão desenvolvendo datasets de treinamento enormes para esses algoritmos.

Baseado em rumores, pesquisador especula como estaria sendo treinado o Q*, modelo que teria desencadeado a demissão de Sam Altman da OpenAI

A metodologia se destaca por utilizar dados sintéticos e por abordar o raciocínio em várias etapas, combinando RLHF (aprendizado por reforço com feedback humano, na sigla em inglês) com a...

Baseado em rumores, pesquisador especula como estaria sendo treinado o Q*, modelo que teria desencadeado a demissão de Sam Altman da OpenAI · NewsletterOficial