Q-learning
Um algoritmo de aprendizado por reforço que não depende de um modelo do ambiente. Ele aprende uma política de ações, informando a um agente qual ação tomar em diferentes estados para maximizar uma recompensa cumulativa.
Um algoritmo de aprendizado por reforço que não depende de um modelo do ambiente. Ele aprende uma política de ações, informando a um agente qual ação tomar em diferentes estados para maximizar uma recompensa cumulativa.