K-Armed Bandit Problem

Um problema clássico em aprendizado por reforço onde um agente deve escolher entre 'k' ações diferentes (ou 'braços' de uma máquina caça-níqueis) para maximizar sua recompensa total ao longo do tempo, equilibrando a exploração de novas ações com a explotação daquelas que já se mostraram eficazes.