Aprendizado por Reforço com Deep Racer

Aprendizado por reforço para aplicações em redes neurais

Prof. Hallison Paz

20 de fevereiro de 2024

Dúvidas e Dívidas

From bandits to "bandits cars"

Retomando...

Multi-Armed Bands com distribuição não-estacionária

Cálculo do valor de uma ação



Quando para todo , temos o caso anterior (média simples).


Qualquer sequência pode ser utilizada para solucionar o problema?

Contextual Armed Bandits

Como se relaciona com aprendizado por reforço?

Deep Racer

O que é aprendizado por reforço?

Agente | Ambiente

Estado | Ação

Recompensa, Função de

Retorno e objetivo

Como modelar o problema de sair do labirinto?

Mais um exemplo...

Função de recompensa no Deep Racer

Position on track
Heading
Waypoints
Track width
Distance from center line
All wheels on track
Speed
Steering angle

Exemplo:

def reward_function(params):
    '''
    Example of rewarding the agent to follow center line
    '''

    # Read input parameters
    track_width = params['track_width']
    distance_from_center = params['distance_from_center']
    # Calculate 3 markers that are at varying distances away from the center line
    marker_1 = 0.1 * track_width
    marker_2 = 0.25 * track_width
    marker_3 = 0.5 * track_width
    # Give higher reward if the car is closer to center line and vice versa
    if distance_from_center <= marker_1:
        reward = 1.0
    elif distance_from_center <= marker_2:
        reward = 0.5
    elif distance_from_center <= marker_3:
        reward = 0.1
    else:
        reward = 1e-3  # likely crashed/ close to off track

    return float(reward)

Parâmetros e Hiperparâmetros

Competição

  • Competição individual por aluno.
  • Inscrições a partir de 5 de março.
  • Haverá 3 workshops virtuais.
  • Corrida virtual classificatória.
  • 5 modelos selecionados por região geográfica
  • 25 finalistas no Congresso da SBC em Brasília.

Bibliografia complementar

Para ir mais além