Q-learning

Um algoritmo de aprendizado por reforço que não depende de um modelo do ambiente. Ele aprende uma política de ações, informando a um agente qual ação tomar em diferentes estados para maximizar uma recompensa cumulativa.

Política de Privacidade

Copyright © www.programicio.com Todos os direitos reservados

É proibida a reprodução do conteúdo desta página sem autorização prévia do autor.

Contato: programicio@gmail.com