【强化学习】2.2 行为评价方法(Action-value Methods)

Abstract: 本文介绍第一种强化学习方法——行为评价方法(Action-value Methods),非常简单但是可以通过这个简单的算法来感受下强化学习的难点和问题解决的思路 Keywords: 强化学习, k臂赌博机, 多臂赌博机, 利用, 探索, 行为评价方法,样本均值方法, $\varepsilon$-greedy方法 ...

October 10, 2018 · 谭升