Funções de Valor e a Equação de Bellman

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

27 de fevereiro de 2024

Dúvidas e Dívidas

Reflexão

Os juros do conhecimento

Autoestudos na AdaLove

PRAZO DA PONDERADA:

Funções de Valor

Retorno, objetivo

Estado Final


Política como distribuição de probabilidade


Uma política é um mapeamento (função) que diz qual a probabilidade de escolher a ação no estado .


Exercício: especificação de uma política

Função de valor de um estado sob a política


, para todo

Função de valor de uma ação sob a política


Derivando a equação de Bellman

A equação de Bellman


Entendendo a cabulosa💀 equação de Bellman

"Backup Diagram"

Foco no estado


"Backup Diagram"

Foco na ação

Tudo junto...

Exercício: Qual o valor de cada estado colorido?

  • Considere: ; ; ; ; .

EXEMPLO: Sutton, 2018

Políticas ótimas

Políticas ótimas


  • para todo

  • A cada política ótima há uma função de valor de estado e uma função de valor de ação ótimos .

Se a recompensa for determinística, tem-se:

Sutton, 2018

No caso de recompensa determinística:

Sutton, 2018
Sutton, 2018

Exercício: calcule o valor ótimo no grid do autoestudo

E quando não dá pra calcular o valor diretamente?

Bibliografia complementar

--- <!-- _paginate: false

# Resposta