Redian新闻
>
第五篇:强化学习基础之马尔科夫决策过程

第五篇:强化学习基础之马尔科夫决策过程

科技

你好,我是zhenguo(郭震)

今天总结强化学习第五篇:马尔科夫决策过程

基础

马尔科夫决策过程(MDP)是强化学习的基础之一。下面统一称为:MDP

MDP提供了描述序贯决策问题的数学框架。

它将决策问题建模为:

状态动作转移概率奖励的组合,并通过优化累积奖励的目标来找到最优的决策策略。

详细来说,MDP包含以下要素:

  • 状态(State):系统或环境可能处于的不同状态。
  • 动作(Action):在每个状态下可选的决策或行动。
  • 转移概率(Transition Probability):在执行某个动作后,系统从一个状态转移到另一个状态的概率分布。
  • 奖励(Reward):在每个状态执行某个动作后获得的即时奖励。
  • 策略(Policy):根据当前状态选择动作的策略。

再看迷宫游戏

之前文章,我已经拿着迷宫例子详细阐述过一遍上面的这些概念。

"迷宫问题"是MDP的经典案例。下面我们拿着此案例,再深入理解下这些基础概念。

假设我们有一个迷宫,智能体要在迷宫中找到一个宝藏。

迷宫可以表示为一个二维网格,每个格子可以是墙壁(不可通过)或空地(可通过)。智能体可以采取四个动作:向上、向下、向左和向右移动。目标是找到宝藏,同时避免碰到墙壁。

现在,逐一解释下MDP的这些要素。

状态(State)

在这个例子中,状态是智能体所处的位置坐标,即迷宫中的某个格子。

例如,可以使用(x, y)坐标来表示状态,其中xy是迷宫中某个格子的行和列索引。

动作(Action)

动作是智能体在某个状态下可以采取的行动,即向上、向下、向左或向右移动。

可以使用符号(U,D,L,R)来表示相应的动作。

转移概率(Transition Probability)

转移概率描述在某个状态下执行某个动作后,智能体转移到下一个状态的概率分布。

在迷宫游戏中,转移概率是确定性的,因为智能体在执行一个动作后会准确地移动到下一个状态。

例如,如果智能体在状态(x, y)执行向上的动作,那么下一个状态将是(x, y-1),转移概率为1。

奖励(Reward)

奖励是智能体在执行某个动作后所获得的即时反馈。

在迷宫游戏中,可以设置以下奖励机制:

当智能体移动到宝藏位置时,获得正奖励(例如+10)。

当智能体移动到墙壁位置时,获得负奖励(例如-5)。

在其他情况下,获得较小的负奖励(例如-1),以鼓励尽快找到宝藏。

公式化表达

下面,我们尝试将这个例子使用公式化表达。

状态(State)

状态可以表示为一个二维坐标 (x, y),其中 x 表示迷宫的行索引,y 表示迷宫的列索引。

假设迷宫的大小为 N × M,则状态集合为

动作(Action)

动作集合为 ,分别代表向上、向下、向左和向右移动。

转移概率(Transition Probability)

由于在迷宫中移动是确定性的,转移概率可以表示为函数

其中 表示在状态 s 下执行动作 a 后转移到状态 s' 的概率。

根据迷宫规则,如果智能体在状态 执行动作 a,那么下一个状态 s' 可以根据动作 a 来计算,例如:

  • 如果 ,则
  • 如果 ,则
  • 如果 ,则
  • 如果 ,则

注意,在边界情况下,如果智能体试图移动到迷宫之外的位置或者移动到墙壁位置,转移概率为0。

奖励(Reward)

奖励函数可以表示为函数 ,其中 表示在状态 s 下执行动作 a 后转移到状态 `s'`` 的即时奖励

根据迷宫的设定,定义如下奖励:

  • 如果 是宝藏位置,则
  • 如果 是墙壁位置,则
  • 否则,

这篇文章我想重点阐述清楚MDP的这些核心要素,它们是强化学习的根基,这些你一定要理解。

下一篇介绍:MDP的决策方法

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第十二篇:强化学习SARSA算法马斯克谈“去美元化” 称美国政策过于强硬 导致其他国家抛弃美元ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型斯特列尔科夫喊话普京:要么宣布国家进入战争状态,要么你下台!第六篇:强化学习策略迭代 通俗解释最强大脑:人脑是否也有量子计算?往事并不如烟Dr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学AI设计蛋白质新方法登Science!利用强化学习,直接根据预想优化结构第10篇:强化学习Q-learning求解迷宫问题 代码实现当一个异装癖二十年的丈夫决定把秘密告诉妻子我将开始更新 强化学习Qlib全新升级:强化学习能否重塑金融决策模式?ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型MABIM:多智能体强化学习算法的“炼丹炉”第二篇:强化学习中的7个基础概念质疑习总携普大帝共创“百年大变局”:海外华人看中国走向扎波罗热反攻开始,乌军能否复制哈尔科夫?WWW 2023|快手:通过强化学习提升用户留存七律 春雨樱花高尔夫强化学习驱动的低延迟视频传输蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法往事并不如烟第三篇:强化学习发展历史第八篇:强化学习值迭代及代码实现强化学习的应用领域和案例耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类复习强化学习过往四篇博士申请 | 亚利桑那州立大学魏华老师招收强化学习全奖博士/硕士/本科/实习生用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。