Programação Dinâmica para Aprendizado por Reforço

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

5 de março de 2024

Dúvidas e Dívidas


  • Ponderada sobre deep racer: a ser entregue na próxima sprint.
  • Correção da ponderada de função de ativação.
  • 1ª Prova.

Autoestudos na AdaLove

Equação de Bellman




  • Sistema de equações! 😱

Iterative Policy Evaluation


  • expected updates

Iterative Policy Evaluation

Gridworld

Melhorando uma política

Iteração de Valor

Busca a política ótima por:


Iteração de Valor

Teorema da melhoria de Política


Sejam e duas políticas tais que

e

então .

Melhorando uma Política


Construa de modo que:


  • Pelo teorema da melhoria, tem que ser pelo menos tão boa quanto

Iteração de Política

Iteração de Política

Bibliografia complementar

--- <!-- _paginate: false

--- <style scoped> h1 { /* text-align: center; */ color: #ffffff } h3 { /* text-align: center; */ color: #dddddd } </style> ![bg](styles/bg_inteli_01.png) ### Reflexão # Os juros do conhecimento

--- <style scoped> h1 { /* text-align: center; */ color: #ffffff } </style> ![bg](styles/bg_inteli_01.png) # E quando não dá pra calcular o valor diretamente?