Multi-Armed Bandits

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

15 de fevereiro de 2024

Choros e lamentações

Como definir o problema de multi-armed bandits?

Que tipos de problemas seguem esta modelagem?

Investigação Exploração

(Exploration vs Exploitation)

Faz sentido só investigar?

Lei dos grandes números

Faz sentido só explorar?

"SE EU TIVESSE 8 HORAS PARA CORTAR UMA ÁRVORE, GASTARIA SEIS AFIANDO MEU MACHADO"


-- Abraham Lincoln? Gimli, filho de Glóin? Desconhecido?

Como solucionar razoavelmente o problema de multi-armed bandits?

Métodos que avaliam ações

(action-value methods)

  • Valor de uma ação:

  • Estimativa do valor:

Que ação tomar?

Greedy vs -greedy

Ação escolhida com base no valor

  • , "parte do tempo"
  • Aleatória parte do tempo

Exemplo:

10-armed testbed

Greedy vs -greedy

Sutton, R.S. and Barto, A.G. (2018) Reinforcement Learning: An Introduction. 2nd Edition, A Bradford Book, Cambridge. Capítulo 2

Greedy vs -greedy

Sutton, R.S. and Barto, A.G. (2018) Reinforcement Learning: An Introduction. 2nd Edition, A Bradford Book, Cambridge. Capítulo 2

Algoritmo

Sutton, R.S. and Barto, A.G. (2018) Reinforcement Learning: An Introduction. 2nd Edition, A Bradford Book, Cambridge. Capítulo 2

Como fazer um algoritmo greedy investigar mais?

Escolhas iniciais otimistas

E se as distribuições não forem estacionárias?

Cálculo do valor de uma ação



Quando para todo , temos o caso anterior (média simples).


Qualquer sequência pode ser utilizada para solucionar o problema?

Como se relaciona com aprendizado por reforço?

Contextual Armed Bandits

<<< Próxima semana >>>

TROCA DE CONTEXTO 🥁

Problema do Cartpole

Bibliografia complementar

Para ir mais além