Redian新闻
>
给你一个 PPO × Family 课程,撑起整个决策 AI 宇宙

给你一个 PPO × Family 课程,撑起整个决策 AI 宇宙

公众号新闻


序幕


童年经典游戏


80、90年代出生的人,红白机总是童年时光重要的记忆片段之一。几叠游戏盒,两个手柄,就可以开启一整天的欢乐时光,乐此不疲地探索各种红白机游戏中的玩法、机制、彩蛋。虽然只是2维平面上的像素头小人,虽然只是“上上下下左右左右BABA”这般的简单按键,但依然被玩家们开发出了各种精彩纷呈的决策行为,时至今日,仍然有很多爱好者在挑战各种诸如“一命通关”,“最速通关”的游戏记录:


B站UP主“探索者一九一二”录制的一命通关赤色要塞操作片段


B站UP主“探索者一九一二”录制的一命通关魂斗罗操作片段


而随着时代的发展,游戏类型也变得五花八门,于是玩家们探索的方式也愈加丰富,各类玩家解说攻略视频大大加快了游戏知识的传播速度,还有一系列基于规则的辅助工具将程序和算法引入到游戏探索之中。


最近几年,人工智能技术的发展更是大大提升了算法探索游戏的极限,从2016年 AlphaGo 在围棋领域技惊四座开始,再到后续2019年的 AlphaStar、OpenAI Five,以深度强化学习为核心的决策 AI,在这些复杂度和博弈性最顶尖的游戏中,一次又一次地创造着人工智能的新高峰。


但其实,这些最前沿的决策与智能,离我们并不遥远。比如在很多人的少年时代,玩家们通过个人自身的练习和尝试,朋友间数不清的讨论与琢磨,探索着这些红白机游戏中的种种策略,而在当下,其实我们也可以去学习和运用深度强化学习技术,从另一个视角去打造决策智能,解锁各种有趣有成就感的游戏玩法,还可以跳出游戏的圈子,尝试应用到各种各样的日常决策行为,以及各行各业的优化与设计中去。


想象一下,你不仅可以训练出一个帮你探索游戏玩法的最佳辅助,又可以拥有一个响应你各种日常指令的机器管家,自主导航和操作完成各种任务。


智能体在 habitat-sim 环境中按照指令执行任务


基于相似愿景,上海人工智能实验室 OpenDILab (开源决策智能平台)将会设计推出一系列的决策智能公开课。


首先推出的决策智能入门级公开课 PPO × Family 由中国计算机学会主办,上海人工智能实验室承办,全球高校人工智能学术联盟、北京大学人工智能研究院多智能体中心、浙江大学上海高等研究院、商汤科技协办,知乎、机器之心、智海平台、 Paperweekly 支持。顺利结课的学员还可获得由中国计算机学会颁发的课程学习认证证书


此课程旨在运用一种最经典的深度强化学习算法 Proximal Policy Optimization (PPO),解决各种各样的决策智能问题,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO × Family。在上完这门课程后,如果有进一步兴趣的话,受众可以将所学知识应用到相关领域中,利用更多的计算资源,去追逐和挑战更强大的人工智能。



首映



PPO 原本是在2017年由 OpenAI 提出的一种深度强化学习算法,而在往后几年中,又有诸多研究者从不同方面给 PPO 添加了许多算法技巧,时至今日,PPO 已成为最受欢迎的算法之一。


OpenDILab 总结了各方面研究者们的相关工作,又结合了开源发布一年来,在40多种决策环境中调优和实践的经验和总结,最终凝练而成了这门 PPO × Family 决策智能入门公开课。


课程大纲



本系列课程将分为8节线上公开课,每节课40-50分钟。相对于强化学习领域已有的优秀公开课,这门课并没有选择自顶向下地讲述强化学习发展演变的各个算法分支,而是自底向上地,从实际应用深度强化学习的角度出发,讲述把算法理论应用到实际决策问题时常用的种种分析方法和优化技巧,通过这门课让受众盘清算法理论,理顺代码逻辑,玩转决策AI应用实践


其中,第1节课将会通过多重对比来讲解决策 AI 问题定义和研究的特殊之处;第2-7节课将会分别以子领域专题的形式,扩充 PPO × Family 的相关成员;最后一节课,将会综合运用之前累积的各方面知识,去设计和搭建一个“终极”智能体


更重要的是,每节课程都会保持“算法理论-代码实现-应用实践”三合一的讲解模式,真正做到知其然(代码)又知其所以然(算法),并学以致用(应用)


算法理论公式和代码实现的一一对应讲解


在 PPO × Family 八节课的过程中,受众会接触到各种各样的决策智能应用,最终结课时,就相当于完成了自动驾驶、量化交易、机器人控制、游戏 AI 等多个领域相关决策任务的入门实践,从而真正做到集中一点,演化出无限可能。



此外,OpenDILab 也特地优化了每节课的实践任务的计算开销,整个 PPO × Family 系列课程并不需要大量计算资源,一定配置的个人电脑完全可以应对各种挑战(当然课程官方也会提供一些免费的计算资源用于备用)。


在上完这门课程后,如果有进一步兴趣的话,受众可以将所学知识应用到相关领域中,利用更多的计算资源,去追逐和挑战更强大的人工智能。而且,这门课程也会在每节课布置一些算法理论分析的小作业,如果能够坚持完成并参与讨论,可以获得由中国计算机学会颁发的课程学习认证证书


课程预告


目前,OpenDILab 已经建立了🌟课程 GitHub🌟相关仓库,每一节课程的课件、文字讲稿,代码,答疑等教学素材都会全部公开在这个仓库中。而每节课的课程录像,将会在B站(账号:OpenDILab)、公众号平台(账号:OpenDILab决策AI)、知乎平台(账号:OpenDILab浦策)同步发布,欢迎保持关注。


🌟PPO × Family 课程 GitHub链接:

https://github.com/opendilab/PPOxFamily


另外,由于剪辑和制作需要,同时响应受众的需求不断优化课程内容,我们将会以每1-2周一节课的速度逐渐更新课程内容,也欢迎大家积极参与贡献,希望能够真正将知识传达给有需要的人,共建知识共享的开源社区。


课程第一讲(开启决策 AI 探索之旅)将会在 2022年12月8日正式上线。


🌟感兴趣的朋友可以扫描下方二维码添加课程小助手微信,备注「课程」,进入课程讨论群。欢迎大家与我们交流。




References:

[1] https://github.com/Kautenja/nes-py
[2] https://www.bilibili.com/video/BV14d4y1N7KH/?spm_id_from=333.999.0.0
[3] https://github.com/facebookresearch/habitat-sim

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【春节不打烊】这一套小人书,撑起中国连环画半壁江山,绝了!鲁迅说,打断你一条腿,再给你一副拐杖,你还要感谢我..上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策Walker的虚伪和谎言使其遭儿子和女友公开背叛一盒难求的抗原,撑起了2700亿市场?夜读申请“冰川季”,下一步该怎么走?哥大顾问携手当届学生,给你一个可能的答案绝了!这一套小人书,撑起中国连环画半壁江山...当你搬到英国,你的妈妈和哥哥决定给你一个生日惊喜!我竟然泪流满面…1.95元一支的采样管,撑起一个IPO如果给你一个机会,和上野千鹤子通信 | 谷雨牛牛一年级无压力,靠4个app课程,自用两年,逢人推荐,薅来买1送1,免费试听巨子生物:靠科研和微商起家,撑起一张超300亿的面膜工农红军与雇佣军的区别在哪里绝了!这套小人书,撑起中国连环画半壁江山...270万货车司机撑起一个IPO元宇宙“女儿国”:三千佳丽撑起虚拟世界的门面1400多员工纯线上办公,撑起一个SaaS巨头,火遍全球县城里的“阳康”们,撑起春节烟火气急救队面临的一些问题7.7万贵妇,撑起一个IPO三年半进账超百亿,11万头奶牛撑起一个IPO知名快消|宝洁 2023 Supply Chain Business Analyst 网申最后1天!专业不限!集中一点,演化无限:PPO × Family决策智能入门公开课即日开讲探索儿童发展适宜性课程,推进小学生入学适应教育——上海市“小幼衔接”的15年课程行动|推荐梅西一个人撑起的公司,要IPO了China Daily的这个宝藏课程,双十一活动终于来了!王一博撑起一个IPO,市值50亿背着双肩包的他们,撑起了身后的万家灯火小小充电线撑起一个IPO半价Model 3,撑起4万亿市值特斯拉?斯坦福CS224W《图机器学习》2023课程开始了!Jure Leskovec大牛主讲,附课程PPT下载11万头奶牛撑起一个IPO!秋季鼻血怎么办?2000家宠物医院,撑起一个IPO
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。