Fundamentos de Métodos de Diferença Temporal

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

7 de março de 2024

Dúvidas e Dívidas


  • Ponderada sobre deep racer: a ser entregue na próxima sprint.
  • Correção da ponderada de função de ativação.
  • Correção do Cartpole.

Autoestudos na AdaLove

Função de Qualidade

Função de valor estado-ação




  • Assume que tem um modelo da recompensa e da transição

Função de Qualidade


Calcula-se a função de valor de estado:

Constrói-se uma política:

<RECAP> Iteração de Valor

Busca a política ótima por:


O que fazer se não tiver um modelo?

Aprendizado por Monte Carlo

Aprendizado por Monte Carlo

Retorno de um episódio:

Roda a política, calcula o retorno, divide pelos estados:

, para todos os estados no episódio.

Aprendizado por Monte Carlo



  • Diferença é uma "medida de erro"
  • Aprendizado por experiência; sem modelo prévio.

Monte Carlo Learning é ineficiente.

POR QUÊ?

Aprendizado por Diferença Temporal

Diferença Temporal (TD)


Expressão para TD(0):

Expressão para TD(1): ???????
  • No limite, converge para o aprendizado por Monte Carlo.

SARSA: State-Action-Reward-State-Action

SARSA: State-Action-Reward-State-Action



  • SARSA - on-policy
  • funciona com TD(n)

Q-Learning

Q-learning


  • Algoritmo off-policy

Bibliografia complementar

--- <!-- _paginate: false

--- <style scoped> h1 { /* text-align: center; */ color: #ffffff } h3 { /* text-align: center; */ color: #dddddd } </style> ![bg](styles/bg_inteli_01.png) ### Reflexão # Os juros do conhecimento

maybe events that happened more recently are somehow related to the rewards im getting

--- TD-$\lambda$

SARSA - on-policy - always doing what you think is the best think (more exploitation) - more cumulative reward during learning process you need to take trajections on the environment - aprender com experiência

Q-learning pode aprender por imitação pq é off-policy experience replay can explore more epsilon-greedy - off-policy search strategies