Executando verificação de segurança...
1

Método baseado em valor e método baseado em politica

Para entender os conceitos de um agente baseado no método de valor, como o DQN (Deep Q-Network), e um agente baseado em política, como o REINFORCE, é fundamental compreender que ambos têm como objetivo utilizar o aprendizado por reforço para ensinar a um agente como realizar uma tarefa.

Um agente baseado em valor avalia cada ação tomada em um determinado estado atribuindo um valor numérico a ela. Esse valor representa o quão vantajosa a ação é para alcançar o objetivo da tarefa. Se uma ação leva o agente mais próximo do objetivo, ela receberá uma recompensa maior. Por outro lado, se uma ação leva o agente para longe do objetivo ou tem resultados indesejáveis, ela pode receber uma recompensa menor ou até mesmo uma recompensa negativa (penalização).

Já um agente baseado em política depende de um “conselheiro” para orientar suas decisões. Nesse caso, o “conselheiro” é uma pessoa experiente que já sabe como realizar a tarefa com sucesso. O agente, por sua vez, é como um iniciante que está aprendendo a realizar a tarefa e segue as sugestões do “conselheiro” para tomar suas ações.

Link para o conteúdo completo Link

Carregando publicação patrocinada...