Redian新闻
>
第三篇:强化学习发展历史

第三篇:强化学习发展历史

科技

你好,我是zhenguo(郭震)

这是强化学习第三篇,我们回顾一下它的发展历史:强化学习发展历史

强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑:

1950年代-1960年代

康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究,研究目标是训练机器人进行学习和决策。

1970年代-1980年代

学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划(Adaptive Dynamic Programming)和Q-learning等基本方法。

Richard Sutton

1990年代-2000年代

强化学习的研究进入了新的阶段。

Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。

Ronald J. Williams引入了基于梯度的强化学习算法,即策略梯度方法,这为后来的进一步发展奠定了基础。

这里是Ronald曾经发过的论文:(需要手动复制到浏览器查看)

https://www.ccs.neu.edu/home/rjw/pubs.html

2010年代

通过深度神经网络的引入,强化学习得到了重大的推动和突破。

Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法,首次实现了在Atari游戏中超越人类水平的表现。

Atari游戏

这一时期还涌现出许多重要的深度强化学习算法,如:

  • Deep Deterministic Policy Gradient (DDPG)
  • Proximal Policy Optimization (PPO)、
  • A3C (Asynchronous Advantage Actor-Critic)

2020年代至今

深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战,如样本效率、探索与利用的平衡、通用性和可解释性等问题。

在这一时期,强化学习也在现实世界中的应用领域取得了显著的进展,包括机器人控制、自动驾驶、资源管理、游戏智能等。

自动驾驶

总体而言,强化学习经历了从传统方法到深度学习方法的转变,并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入,强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。

以上就是深度强化学习的发展历史总结。

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊ChatGPT 发展历程、原理、技术架构详解和产业未来复习强化学习过往四篇WWW 2023|快手:通过强化学习提升用户留存ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型博士申请 | 亚利桑那州立大学魏华老师招收强化学习全奖博士/硕士/本科/实习生Dr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学碧桂园董事会主席杨惠妍:强化一二线城市产品力布局,建立自身的业务壁垒杭州国大六周年:强化自有IP 「长期主义」打造商业「新世界」用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务MABIM:多智能体强化学习算法的“炼丹炉”AI设计蛋白质新方法登Science!利用强化学习,直接根据预想优化结构强化学习的应用领域和案例以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢第二篇:强化学习中的7个基础概念第10篇:强化学习Q-learning求解迷宫问题 代码实现爱晒衣服的日本人第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%第八篇:强化学习值迭代及代码实现蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法意外地好!!!!!Microsoft 必应图像创建者强化学习驱动的低延迟视频传输耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类金融监管新信号!李云泽:强化民营企业金融服务,金融业开放的大门只会越开越大九剑一魂 - 第23回 太子遇害 贾后伏诛(九)第十二篇:强化学习SARSA算法第五篇:强化学习基础之马尔科夫决策过程第六篇:强化学习策略迭代 通俗解释斜风细雨不须归强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Qlib全新升级:强化学习能否重塑金融决策模式?ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架我将开始更新 强化学习ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。