Redian新闻
>
第二篇:强化学习中的7个基础概念

第二篇:强化学习中的7个基础概念

科技

你好,我是zhenguo(郭震)

这是强化学习第二篇:强化学习7个基础概念

在强化学习中,智能体需要在不断尝试和错误的过程中学习,通过观察环境的反馈(奖励或惩罚)来调整自己的行为,从而逐步改进策略。

强化学习常见的概念,结合迷宫游戏给大家阐述一下。

第一,红点表示智能体,它在迷宫这个环境中玩耍:

第二,环境,在这里就是迷宫,迷宫环境里有:初始出发点,白色方块表示可以通行的格子,黑色格子表示障碍物,绿点表示迷宫出口,迷宫的长为8个格子,宽为8个格子,这些元素组成了强化学习的环境。

第三,状态,这个对于初学者觉得会比较抽象,在迷宫游戏里,状态可以理解为红点所在的一个格子里,一个格子会有一个坐标,假定坐标系的原点为左下角,假定智能体走到了最下方箭头所指的红点,那么此时智能体的状态可以抽象为 (2,0)

第四,动作:动作是智能体在特定状态下可以执行的操作。它可以是离散的(例如,向左/向右)或连续的(例如,控制机器臂的力或位置)。在迷宫游戏里,智能体状态为 (2,0) 时,它可能的动作只有两个:向左或向右,如下面2个粉色箭头所示,动作取值是离散的。

第五,奖励:奖励是环境针对智能体的行为给出的反馈信号。它用来评估智能体的行为好坏,并作为学习信号指导智能体的决策。

在迷宫游戏中,如果智能体已经当前状态为 (2,0) ,并且它的上一个状态为 (1,0) ,因为此时它有两个动作选择,向左或向右。

如果它动作向左,表明重复原来路径,我们要给它一个惩罚奖励,尽量让它不要重复走路;相反,如果向右走,我们给它一个相对于向左来说更好的奖励,你看,这不就让智能体更倾向选择向右走吗?!

第六,策略:策略定义了智能体在给定状态下选择动作的方式。这个概念也是比较抽象的,策略是什么意思呢?

举一个常用到的策略:ε-贪婪策略。

该策略在选择动作时,以1-ε的概率选择当前最优的动作,以ε的概率选择随机动作。也就是说,在智能体当前状态为 (2,0) 时,下一状态它有可能再向左移动,尽管在当前这个环境下,向左移动我们直接观察出并不明智。但是,对于其他情况,随机选择动作会有可能得到意想不到的好结果。

第七,值函数 :值函数用来评估状态或状态-动作对的价值,表示从该状态或状态-动作对开始,智能体能够获得的长期累积奖励的期望值。

更加通俗来说,值函数就是给你智能体的一个状态,返回它的累计奖励值。可以使用深度学习网络模型来逼近值函数,比如:让神经网络输入状态,输出各个动作下的奖励值。

以上就是强化学习中,最重要的7个概念,希望对你有帮助!

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
九剑一魂 - 第23回 太子遇害 贾后伏诛(九)工业和信息化部党组理论学习中心组(扩大)学习习近平新时代中国特色社会主义思想长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务杭州国大六周年:强化自有IP 「长期主义」打造商业「新世界」复习强化学习过往四篇《无可抚慰》的伤口Qlib全新升级:强化学习能否重塑金融决策模式?Dr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学博士申请 | 亚利桑那州立大学魏华老师招收强化学习全奖博士/硕士/本科/实习生ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?强化学习的应用领域和案例我将开始更新 强化学习第六篇:强化学习策略迭代 通俗解释蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类美国留学好用App 【第二篇 - 购物+出行+娱乐】第十二篇:强化学习SARSA算法工业和信息化部党组理论学习中心组举办“深入学习贯彻党的二十大精神 深化工业互联网创新发展 构建新型工业化关键引擎”专题辅导报告会ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊金壮龙参加中国信息通信研究院党委理论学习中心组(扩大)学习 指导主题教育工作用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务第八篇:强化学习值迭代及代码实现第三篇:强化学习发展历史AI设计蛋白质新方法登Science!利用强化学习,直接根据预想优化结构强化学习驱动的低延迟视频传输第10篇:强化学习Q-learning求解迷宫问题 代码实现WWW 2023|快手:通过强化学习提升用户留存宾州吉姆索普(Jim Thorpe),节日气氛强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程碧桂园董事会主席杨惠妍:强化一二线城市产品力布局,建立自身的业务壁垒意外地好!!!!!Microsoft 必应图像创建者第五篇:强化学习基础之马尔科夫决策过程第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。