Q-value
No Q-learning, um Q-valor é a estimativa da recompensa cumulativa futura que um agente pode esperar receber ao tomar uma determinada ação em um determinado estado. A tabela de Q-valores armazena esses valores.
No Q-learning, um Q-valor é a estimativa da recompensa cumulativa futura que um agente pode esperar receber ao tomar uma determinada ação em um determinado estado. A tabela de Q-valores armazena esses valores.