Q-learning

Um algoritmo de aprendizado por reforço que não depende de um modelo do ambiente. Ele aprende uma política de ações, informando a um agente qual ação tomar em diferentes estados para maximizar uma recompensa cumulativa.