Proximal Policy Optimization

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

22 de março de 2024

Dúvidas e Dívidas


  • Ponderada de Deep Racer: 24/03/2024
  • Ponderada de Lunar Lander: 31/03/2024

Pesquisa

Discussão nos grupos

  • Quais as ideias centrais de um método do tipo "Policy Gradient"?
  • O que é um método ator-crítico e como ele funciona?
  • Qual a motivação para método Proximal Policy Optimization (PPO)?
    • Como ele difere de outros métodos que estudamos com redes neurais?

Proximal Policy Optimization

Prática

Bibliografia complementar

_footer: [LINK PARA MAIS INFORMAÇÕES](https://openai.com/research/openai-baselines-ppo)