--- <!-- _paginate: false

--- <style scoped> h1 { /* text-align: center; */ color: #ffffff } h3 { /* text-align: center; */ color: #dddddd } </style> ![bg](styles/bg_inteli_01.png) ### Reflexão # Os juros do conhecimento

maybe events that happened more recently are somehow related to the rewards im getting

--- TD-$\lambda$

SARSA - on-policy - always doing what you think is the best think (more exploitation) - more cumulative reward during learning process you need to take trajections on the environment - aprender com experiência

Q-learning pode aprender por imitação pq é off-policy experience replay can explore more epsilon-greedy - off-policy search strategies

Fundamentos de Métodos de Diferença Temporal

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

7 de março de 2024

Dúvidas e Dívidas

Autoestudos na AdaLove

Função de Qualidade

Função de Qualidade

Calcula-se a função de valor de estado:

Constrói-se uma política:

<RECAP> Iteração de Valor

Busca a política ótima por:

O que fazer se não tiver um modelo?

Aprendizado por Monte Carlo

Aprendizado por Monte Carlo

Retorno de um episódio:

Roda a política, calcula o retorno, divide pelos estados:

Aprendizado por Monte Carlo

Legal, mas....

Monte Carlo Learning é ineficiente.

POR QUÊ?

Aprendizado por Diferença Temporal

Diferença Temporal (TD)

Expressão para TD(0):

Expressão para TD(1): ???????

SARSA: State-Action-Reward-State-Action

SARSA: State-Action-Reward-State-Action

Q-Learning

Q-learning

Bibliografia complementar