Uma política é um mapeamento (função) que diz qual a probabilidade de escolher a ação
A cada política ótima há uma função de valor de estado
Se a recompensa for determinística, tem-se:
No caso de recompensa determinística:
Sutton, R.S. and Barto, A.G. (2018) Reinforcement Learning: An Introduction. 2nd Edition, A Bradford Book, Cambridge. Capítulo 3 seções 3.4 a 3.6.
Aleksandar Haber. Clear Explanation of the Value Function and Its Bellman Equation – Reinforcement Learning Tutorial.
Luc Gendrot. Not Another RL Tutorial! Part 2: Chains, Rewards, and Decision Processes, Oh My!
--- <!-- _paginate: false
# Resposta