第二篇：强化学习中的7个基础概念

2023-05-19 16:05

你好，我是zhenguo（郭震）

这是强化学习第二篇：强化学习7个基础概念

在强化学习中，智能体需要在不断尝试和错误的过程中学习，通过观察环境的反馈（奖励或惩罚）来调整自己的行为，从而逐步改进策略。

强化学习常见的概念，结合迷宫游戏给大家阐述一下。

第一，红点表示智能体，它在迷宫这个环境中玩耍：

第二，环境，在这里就是迷宫，迷宫环境里有：初始出发点，白色方块表示可以通行的格子，黑色格子表示障碍物，绿点表示迷宫出口，迷宫的长为8个格子，宽为8个格子，这些元素组成了强化学习的环境。

第三，状态，这个对于初学者觉得会比较抽象，在迷宫游戏里，状态可以理解为红点所在的一个格子里，一个格子会有一个坐标，假定坐标系的原点为左下角，假定智能体走到了最下方箭头所指的红点，那么此时智能体的状态可以抽象为 (2,0)

第四，动作：动作是智能体在特定状态下可以执行的操作。它可以是离散的（例如，向左/向右）或连续的（例如，控制机器臂的力或位置）。在迷宫游戏里，智能体状态为 (2,0) 时，它可能的动作只有两个：向左或向右，如下面2个粉色箭头所示，动作取值是离散的。

第五，奖励：奖励是环境针对智能体的行为给出的反馈信号。它用来评估智能体的行为好坏，并作为学习信号指导智能体的决策。

在迷宫游戏中，如果智能体已经当前状态为 (2,0) ，并且它的上一个状态为 (1,0) ，因为此时它有两个动作选择，向左或向右。

如果它动作向左，表明重复原来路径，我们要给它一个惩罚奖励，尽量让它不要重复走路；相反，如果向右走，我们给它一个相对于向左来说更好的奖励，你看，这不就让智能体更倾向选择向右走吗？！

第六，策略：策略定义了智能体在给定状态下选择动作的方式。这个概念也是比较抽象的，策略是什么意思呢？

举一个常用到的策略：ε-贪婪策略。

该策略在选择动作时，以1-ε的概率选择当前最优的动作，以ε的概率选择随机动作。也就是说，在智能体当前状态为 (2,0) 时，下一状态它有可能再向左移动，尽管在当前这个环境下，向左移动我们直接观察出并不明智。但是，对于其他情况，随机选择动作会有可能得到意想不到的好结果。

第七，值函数 ：值函数用来评估状态或状态-动作对的价值，表示从该状态或状态-动作对开始，智能体能够获得的长期累积奖励的期望值。

更加通俗来说，值函数就是给你智能体的一个状态，返回它的累计奖励值。可以使用深度学习网络模型来逼近值函数，比如：让神经网络输入状态，输出各个动作下的奖励值。

以上就是强化学习中，最重要的7个概念，希望对你有帮助！

你的点赞和转发，给我更新增加更大动力，感谢你的支持。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq