强化学习 | 谭升的博客

【强化学习】2.2 行为评价方法(Action-value Methods)

Abstract: 本文介绍第一种强化学习方法——行为评价方法(Action-value Methods)，非常简单但是可以通过这个简单的算法来感受下强化学习的难点和问题解决的思路 Keywords: 强化学习, k臂赌博机, 多臂赌博机, 利用, 探索, 行为评价方法，样本均值方法, $\varepsilon$-greedy方法 ...

【强化学习】2.1 k臂赌博机(k-armed bandits)问题

Abstract: 在强化学习中，平衡Exploitation和Exploration将会是一个从始至终的问题，我们本章用简单的k臂赌博机问题来从具体的每一步来分析和研究这个问题，本节先介绍下问题的描述和大概的解决思路，为本章后面的问题解决做好铺垫 Keywords: 强化学习，k臂赌博机，多臂赌博机，利用，探索，Exploitation，Exploration ...

【强化学习】2.0 多臂赌博机

Abstract: 本文是第二章“多臂赌博机”的绪论，介绍本章主要内容 Keywords: 强化学习，多臂赌博机 ...

【强化学习】1.6 本章总结、强化学习历史简述

Abstract: 强化学习第一章小结 Keywords: 强化学习历史，强化学习总结 ...

【强化学习】 1.5 强化学习的一个扩展举例

Abstract: 本文介绍强化学习的一个具体例子，Tic-Tac-Toe，作为一种下棋类游戏，Tic-Tac-Toe规则简单，而且问题规模小，容易进行深入分析，了解强化学习在具体例子中的执行过程，进而了解强化学习的性质和特点。 Keywords: 强化学习，强化学习举例，Tic-Tac-Toe ...

【强化学习】 1.4.1 强化学习与优化方法

**Abstract:**本文介绍强化学习和优化方法之间的关系，他们之间一些共同误区以及强化学习的工程性质 **Keywords:**强化学习，优化方法，强化学习工程化 ...

【强化学习】 1.4.0 “进化方法”和 “决策梯度方法” 概论

Abstract: 本文介绍强化学习中的一些局限（limitation）和机遇（scope），介绍进化方法和决策梯度方法的区别和优劣 Keywords: Evolutionary Method，进化方法，Policy Gradient Methods，决策梯度方法 ...

【强化学习】1.3 强化学习的基础元素

Abstract: 本文介绍除了agent和environment以外的，对于强化学习最重要的最基础的四个元素。 Keywords: Policy，策略，Reward Signal，奖励，Value Function，评价函数，Model of Environment，环境模型 ...

【强化学习】1-2 强化学习举例

Abstract: 本文介绍几个对应于强化学习的生活中的例子，来具体化前面提到的名词和几个重要理论在自然界中的表现。 Keywords: 强化学习，强化学习举例，Agent，Environment，环境，Reaction，反应 ...

【强化学习】1-1-4 强化学习和人工智能

Abstract: 本文主要介绍强化学习现阶段的情况，以及未来的去向的一种预测。 Keywords: modern Reinforcement Learning，现代强化学习，Psychology，心理学，Neuroscience，神经系统科学，mathematics，数学 ...