Executando verificação de segurança...
1

Baseado em rumores, pesquisador especula como estaria sendo treinado o Q*, modelo que teria desencadeado a demissão de Sam Altman da OpenAI

A metodologia se destaca por utilizar dados sintéticos e por abordar o raciocínio em várias etapas, combinando RLHF (aprendizado por reforço com feedback humano, na sigla em inglês) com a otimização de dados de raciocínio através de PRMs (modelos preditivos de recompensa). O processo inclui coletar prompts apropriados, gerar etapas de raciocínio eficazes e pontuar precisamente milhares de conclusões usando recursos computacionais extensos. Há rumores de que grandes empresas de tecnologia estão desenvolvendo datasets de treinamento enormes para esses algoritmos.

Carregando publicação patrocinada...