Baseado em rumores, pesquisador especula como estaria sendo treinado o Q*, modelo que teria desencadeado a demissão de Sam Altman da OpenAI
A metodologia se destaca por utilizar dados sintéticos e por abordar o raciocínio em várias etapas, combinando RLHF (aprendizado por reforço com feedback humano, na sigla em inglês) com a otimização de dados de raciocínio através de PRMs (modelos preditivos de recompensa). O processo inclui coletar prompts apropriados, gerar etapas de raciocínio eficazes e pontuar precisamente milhares de conclusões usando recursos computacionais extensos. Há rumores de que grandes empresas de tecnologia estão desenvolvendo datasets de treinamento enormes para esses algoritmos.