第三篇:强化学习发展历史
你好,我是zhenguo(郭震)
这是强化学习第三篇,我们回顾一下它的发展历史:强化学习发展历史
强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑:
1950年代-1960年代
康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究,研究目标是训练机器人进行学习和决策。
1970年代-1980年代
学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划
(Adaptive Dynamic Programming)和Q-learning
等基本方法。
Richard Sutton
1990年代-2000年代
强化学习的研究进入了新的阶段。
Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。
Ronald J. Williams引入了基于梯度的强化学习算法,即策略梯度方法,这为后来的进一步发展奠定了基础。
这里是Ronald曾经发过的论文:(需要手动复制到浏览器查看)
https://www.ccs.neu.edu/home/rjw/pubs.html
2010年代
通过深度神经网络的引入,强化学习得到了重大的推动和突破。
Deep Q-Network (DQN)
是由DeepMind提出的一种结合深度神经网络和Q-learning的算法,首次实现了在Atari游戏
中超越人类水平的表现。
Atari游戏
这一时期还涌现出许多重要的深度强化学习算法,如:
Deep Deterministic Policy Gradient (DDPG) Proximal Policy Optimization (PPO)、 A3C (Asynchronous Advantage Actor-Critic)
2020年代至今
深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战,如样本效率、探索与利用的平衡、通用性和可解释性等问题。
在这一时期,强化学习也在现实世界中的应用领域取得了显著的进展,包括机器人控制、自动驾驶、资源管理、游戏智能等。
自动驾驶
总体而言,强化学习经历了从传统方法到深度学习方法的转变,并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入,强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。
以上就是深度强化学习的发展历史总结。
你的点赞和转发,给我更新增加更大动力,感谢你的支持。
微信扫码关注该文公众号作者