第二篇:强化学习中的7个基础概念
你好,我是zhenguo(郭震)
这是强化学习第二篇:强化学习7个基础概念
在强化学习中,智能体需要在不断尝试和错误的过程中学习,通过观察环境的反馈(奖励或惩罚)来调整自己的行为,从而逐步改进策略。
强化学习常见的概念,结合迷宫游戏给大家阐述一下。
第一,红点表示智能体,它在迷宫这个环境中玩耍:
第二,环境,在这里就是迷宫,迷宫环境里有:初始出发点,白色方块表示可以通行的格子,黑色格子表示障碍物,绿点表示迷宫出口,迷宫的长为8个格子,宽为8个格子,这些元素组成了强化学习的环境。
第三,状态,这个对于初学者觉得会比较抽象,在迷宫游戏里,状态可以理解为红点所在的一个格子里,一个格子会有一个坐标,假定坐标系的原点为左下角,假定智能体走到了最下方箭头所指的红点,那么此时智能体的状态可以抽象为 (2,0)
第四,动作:动作是智能体在特定状态下可以执行的操作。它可以是离散的(例如,向左/向右)或连续的(例如,控制机器臂的力或位置)。在迷宫游戏里,智能体状态为 (2,0) 时,它可能的动作只有两个:向左或向右,如下面2个粉色箭头所示,动作取值是离散的。
第五,奖励:奖励是环境针对智能体的行为给出的反馈信号。它用来评估智能体的行为好坏,并作为学习信号指导智能体的决策。
在迷宫游戏中,如果智能体已经当前状态为 (2,0) ,并且它的上一个状态为 (1,0) ,因为此时它有两个动作选择,向左或向右。
如果它动作向左,表明重复原来路径,我们要给它一个惩罚奖励,尽量让它不要重复走路;相反,如果向右走,我们给它一个相对于向左来说更好的奖励,你看,这不就让智能体更倾向选择向右走吗?!
第六,策略:策略定义了智能体在给定状态下选择动作的方式。这个概念也是比较抽象的,策略是什么意思呢?
举一个常用到的策略:ε-贪婪策略。
该策略在选择动作时,以1-ε
的概率选择当前最优的动作,以ε
的概率选择随机动作。也就是说,在智能体当前状态为 (2,0) 时,下一状态它有可能再向左移动,尽管在当前这个环境下,向左移动我们直接观察出并不明智。但是,对于其他情况,随机选择动作会有可能得到意想不到的好结果。
第七,值函数 :值函数用来评估状态或状态-动作对的价值,表示从该状态或状态-动作对开始,智能体能够获得的长期累积奖励的期望值。
更加通俗来说,值函数就是给你智能体的一个状态,返回它的累计奖励值。可以使用深度学习网络模型来逼近值函数,比如:让神经网络输入状态,输出各个动作下的奖励值。
以上就是强化学习中,最重要的7个概念,希望对你有帮助!
你的点赞和转发,给我更新增加更大动力,感谢你的支持。
微信扫码关注该文公众号作者