Processos de Decisão de Markov

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

23 de fevereiro de 2024

Dúvidas e Dívidas

Problemas de Decisão Sequencial

Processos de Decisão de Markov (MDP)

Processos de Decisão de Markov (MDP)

Notação

  • Tempo
  • Estados
  • Ações
  • Recompensas

Sequência ou trajetória


Se as variáveis aleatórias e tiverem distribuições de probabilidade discretas bem definidas e que dependem apenas do estado e ação anteriores, então tem-se um Processo de Decisão de Markov.

Adaptado de (Sutton, 2018)

Os exemplos que vimos no começo da aula são MDPs?

Dinâmica de um processo de decisão de Markov



para todo

Quanto vale o somatório?
Sutton, 2018

Retorno, objetivo

Políticas e funções de valor

Bibliografia complementar

Para ir além

--- <!-- _paginate: false