Q-Learning e Aprendizagem por Diferença Temporal

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

8 de março de 2024

Dúvidas e Dívidas


  • Ponderada sobre deep racer: olhar mensagem do prof Raphael no Slack.
  • Prazo da ponderada Gridworld: 11/03/2024??

Ponderada Eq de Bellman

Artefatos desta Sprint

SARSA: State-Action-Reward-State-Action

SARSA: State-Action-Reward-State-Action



  • Algoritmo on-policy
  • Funciona com TD(n)

SARSA

Q-Learning

Q-learning


  • Algoritmo off-policy

Q-Learning

SARSA vs Q-Learning

Onde entra redes neurais nisso tudo?

Intuição do Deep Q-Learning

Bibliografia complementar

SARSA - on-policy - always doing what you think is the best think (more exploitation) - more cumulative reward during learning process you need to take trajections on the environment - aprender com experiência