多臂赌博机

【强化学习】2.2 行为评价方法(Action-value Methods)

Abstract: 本文介绍第一种强化学习方法——行为评价方法(Action-value Methods)，非常简单但是可以通过这个简单的算法来感受下强化学习的难点和问题解决的思路 Keywords: 强化学习, k臂赌博机, 多臂赌博机, 利用, 探索, 行为评价方法，样本均值方法, $\varepsilon$-greedy方法 ...

【强化学习】2.1 k臂赌博机(k-armed bandits)问题

Abstract: 在强化学习中，平衡Exploitation和Exploration将会是一个从始至终的问题，我们本章用简单的k臂赌博机问题来从具体的每一步来分析和研究这个问题，本节先介绍下问题的描述和大概的解决思路，为本章后面的问题解决做好铺垫 Keywords: 强化学习，k臂赌博机，多臂赌博机，利用，探索，Exploitation，Exploration ...

【强化学习】2.0 多臂赌博机

Abstract: 本文是第二章“多臂赌博机”的绪论，介绍本章主要内容 Keywords: 强化学习，多臂赌博机 ...