Redian新闻
>
上交大校友获最佳论文,机器人顶会CoRL 2022奖项公布

上交大校友获最佳论文,机器人顶会CoRL 2022奖项公布

公众号新闻

机器之心报道

机器之心编辑部
在刚刚落幕的CoRL 2022大会中,本科曾就读于上海交通大学的Kun Huang获得了最佳论文奖。

自 2017 年首次举办以来,CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。


2022年的CoRL大会于12月14日至18日在新西兰奥克兰举行。


本届大会共收到504篇投稿,最终接收34篇Oral论文、163篇Poster论文,接收率为39%。


目前,CoRL 2022 公布了最佳论文奖、最佳系统论文奖、特别创新奖等全部奖项。宾夕法尼亚大学GRASP实验室硕士、上海交通大学校友Kun Huang获得了大会最佳论文奖。


最佳论文奖


获得本届大会最佳论文奖的是来自宾夕法尼亚大学的一项研究。


  • 论文标题:Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning

  • 作者:Kun Huang、Edward Hu、Dinesh Jayaraman

  • 论文链接:https://openreview.net/pdf?id=sK2aWU7X9b8


论文摘要:通常来说,物理相互作用有助于揭示不太明显的信息,例如我们可能会拉一下桌腿来评估它是否稳固,或者把一个水瓶倒过来检查它是否漏水,该研究建议可以通过训练机器人来自动获得这种交互行为,以评估机器人尝试执行技能的结果。这些评估反过来作为IRF(interactive reward functions),用于训练强化学习策略以执行目标技能,例如拧紧桌腿。此外,即使完全训练完成之后,IRF也可以作为改进在线任务执行的验证机制。对于任何给定的任务, IRF训练非常方便,并且不需要进一步的规范。

评估结果表明,IRF 可以实现显着的性能改进,甚至可以通过访问演示或精心设计的奖励来超越基线。比如下图中,机器人必须先关门,然后旋转对称的门把手才能完全锁住门。


门锁(door locking)评估示例演示

下面实验的目的是将 3 个视觉上相同的块堆叠成一个稳定的塔,其中的一个小方块明显比其他两块重,所以最佳策略是将它放在底部。


堆叠评估示例演示

为了检查算法的鲁棒性和通用性,该研究使用具有 9 个关节的 D'Claw 在真实机器人拧紧实验中对其进行测试。此任务的目的是将4-prong阀门顺时针旋转约 180° 进入拧紧状态(阀门底座上的白线)。


作者介绍


本次获得CoRL 2022最佳论文奖的作者共有三位,分别是Kun Huang、Edward Hu、Dinesh Jayaraman 。


Dinesh Jayaraman为宾夕法尼亚大学GRASP实验室的助理教授,他领导着感知、行动和学习(PAL)研究小组,致力于计算机视觉、机器学习和机器人技术的交叉问题研究。


Kun Huang为宾夕法尼亚大学GRASP实验室硕士,在Dinesh Jayaraman教授的指导下研究强化学习。他在密歇根大学获得了计算机科学学士学位,在那里他与 Dmitry Berenson 教授一起研究机器人感知。Kun Huang本科毕业于上海交通大学,研究兴趣包括机器人与现实世界的应用。Kun Huang 在硕士期间曾在 Waymo 实习,毕业后将加入 Cruise 担任机器学习工程师。


领英主页:https://www.linkedin.com/in/kun-huang-620034171/

Edward S. Hu 为宾夕法尼亚大学GRASP实验室的博士生,师从Dinesh Jayaraman教授。他的主要研究兴趣包括基于模型的强化学习等。Edward在南加州大学获得了计算机科学硕士和学士学位,在那里他与Joseph J. Lim教授一起研究机器人的强化和模仿学习。


最佳论文入围名单


此次会议共有3篇论文入围最佳论文奖项,除了最终得奖的论文以外,其他2篇分别是:


  • 论文标题:Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations

  • 作者:Chenhao Li、Marin Vlastelica、Sebastian Blaes、Jonas Frey、Felix Grimminger、Georg Martius

  • 论文链接:https://arxiv.org/pdf/2206.11693.pdf


  • 论文标题:Supercharging Imitation with Regularized Optimal Transport

  • 作者:Siddhant Haldar 、 Vaibhav Mathur、Denis Yarats、Lerrel Pinto

  • 论文链接:https://arxiv.org/pdf/2206.15469.pdf


最佳系统论文奖


获得本届大会最佳系统论文奖的是来自CMU、UC伯克利的一项研究。


  • 论文标题:Legged Locomotion in Challenging Terrains using Egocentric Vision

  • 作者:Ananye Agarwal,Ashish Kumar,Jitendra Malik, Deepak Pathak

  • 论文链接:https://arxiv.org/pdf/2211.07638.pdf

论文摘要:动物能够利用视觉进行精确而敏捷的运动,而复制这种能力一直是机器人技术的一个长期目标。传统的方法是将这个问题分解为海拔测绘和落脚点规划阶段(foothold planning phase)。然而,海拔测绘很容易受到故障和大面积噪声的影响,需要专门的硬件而且在生物学上是不可行的。


在本文中,研究者提出了第一个能够穿越楼梯、路边、垫脚石和空隙的端到端运动系统,并在一个中等大小、使用单个正面的深度摄像头的四足机器人上展示了这一结果。由于机器人体积小,需要发现其他地方没有的专门的步态模式。摄像头需要掌握记住过去的信息的策略,以估计身后脚下的地形。


研究者在模拟环境中训练了机器人的策略。训练分为两个阶段:首先使用强化学习训练一个具有低计算成本的深度图像变体的策略,然后将其提炼为使用监督学习的深度的最终策略。


最终的策略可迁移到现实世界,并能够在机器人有限的计算能力上实时运行。它可以穿越大量的地形,同时对诸如湿滑表面和岩石地形等干扰具有鲁棒性。


垫脚石和空隙

机器人能够跨过各种配置的吧台凳,并调整步长以跨过大间隙。由于后脚附近没有摄像头,机器人必须记住吧台凳的位置并在相应的位置放置后脚。


楼梯和路

该机器人能够爬上24厘米高、30厘米宽的楼梯。策略适用于各种照明条件下的不同楼梯和路边。在分布不均匀的楼梯,机器人最初会被卡住,但最终能够使用爬升行为跨过这些障碍。


非结构化地形

机器人可以穿越不属于其训练类别之一的非结构化地形,显示了系统的泛化能力。


黑暗中的移动

深度相机使用红外光投射图案,即使在几乎没有环境光的情况下也能准确估计深度。


鲁棒性

策略对大力量(从高处投掷 5 公斤重物)和湿滑表面(水倒在塑料布上)具有鲁棒性。


作者介绍


这项研究共有四位作者。


Jitendra Malik现为UC伯克利电气工程和计算机科学系Arthur J. Chick教授,他的研究领域包括计算机视觉、人类视觉的计算建模、计算机图形学和生物图像分析等。


本次获奖研究的作者之一Ashish Kumar是他的博士生。


Deepak Pathak现为卡内基梅隆大学助理教授,他在加州大学伯克利分校获得博士学位,研究的主题包括机器学习、机器人和计算机视觉。


本次获奖研究的作者之一Ananye Agarwal是他的博士生。


此外,Deepak Pathak还有一项研究在本次大会最佳系统论文奖的入围名单之内。


  • 论文标题:Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion

  • 作者:Zipeng Fu, Xuxin Cheng, Deepak Pathak

  • 论文链接:https://arxiv.org/abs/2210.10044


特别创新奖


这次大会还评选出了特别创新奖,这项研究由谷歌的多位研究者共同完成。


  • 论文标题:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

  • 作者:Brian Ichter 、 Anthony Brohan 、Michael Ahn 等

  • 论文链接:https://arxiv.org/pdf/2204.01691.pdf

论文摘要:大型语言模型可以编码关于世界的大量语义知识,这样的知识对机器人非常有用。然而,语言模型存在这样一个缺点,即对真实世界缺乏经验,这使得其在给定任务上很难利用语义进行决策。


来自谷歌的研究者建议通过预训练技能来提供大型语言模型在现实世界的基础,这些技能用于约束模型,以提出既可行又适合上下文的自然语言操作。机器人可以充当语言模型的「手和眼睛」,而语言模型提供关于任务的高级语义知识。该研究展示了低级技能如何与大型语言模型相结合,以便语言模型提供有关执行复杂和时间扩展指令的过程的高级知识,而与这些技能相关的值函数提供了将这些知识连接到特定物理环境所需的基础。


研究者将大型语言模型(LLM)与机器人的物理任务组合到一起时用到了这样一个原则:除了让 LLM 简单地解释一条指令之外,还可以用它来评估单个动作对完成整个高级指令有帮助的概率。简单来说,每个动作可以有一个语言描述,我们可以通过 prompt 语言模型让它给这些动作打分。此外,如果每个动作都有一个相应的 affordance 函数,可以量化它从当前状态(比如学到的价值函数)获得成功的可能性。两个概率值的乘积就是机器人能成功地完成一个对于指令有帮助的动作的概率。根据这个概率将一系列动作排序,选取概率最高的一个。


下图示例展示的是机器人帮助拿苹果:


关于特别创新奖更多研究,感兴趣的小伙伴可以参考这篇文章:


谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
金鸡奖获奖名单公布!朱一龙获最佳男主角,《长津湖》成大赢家谁是滕尚华?两获哥德尔奖,上交大校友,喜欢「躺平式」科研华为向亚马逊收专利费/ 华人学者获ECCV2022最佳论文/ 马斯克收购推特最快周内完成…今日更多新鲜事在此直播预告 | 和ACL最佳论文获得者李磊一起聊聊ChatGPT雷佳音、殷桃凭借「人世间」分别获得金鹰奖最佳男女主角奖!马丽获最佳女配角!杨紫30岁 绯闻男和「现男友」同时送生日祝福!校友活动丨珍存2022 迎接2023:清华经管EMBA内蒙古校友会2022-2023云端迎新年活动CIKM 2022最佳论文:快手提出移动端实时短视频推荐系统AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法EMNLP 2022最佳长论文、最佳短论文等奖项公布!美国老师崩溃了,他们选出的最佳论文竟然都是机器人写的!中国学者开发看护机器人仿真环境,还做了真人实验,获IROS 2022最佳论文之一北大刘利斌团队斩获 SIGGRAPH Asia 2022 最佳论文奖:用语音和文字驱动数字人打手势ECCV 2022开奖!清华、浙大校友斩获最佳论文奖秋天EMNLP 2022 最佳论文揭晓!这脑洞绝了….7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进击碎“魔咒”,阿根廷36年终夺大力神杯!卡塔尔世界杯各奖项公布→?李宁集团与爱国消费者的感情事故EMNLP 2022大会正式落幕,最佳长论文、最佳短论文等奖项公布2022海南岛国际电影节获奖名单,华语片《脐带》获最佳技术奖小城味道北大等国内机构获杰出学生论文,AAAI 2023各大奖项出炉正在直播丨让结肠癌病友获得最佳疗效的关键三步印度科学奖项面临崩盘式重组: 300多个科学奖项大部分都将被取消人形机器人火了,带动三大核心产业,机器人时代来临【附下载】| 智东西内参黄宾虹花鸟,别树一帜移动端部署推荐系统:快手获数据挖掘顶会CIKM 2022最佳论文EMNLP 2022奖项揭晓,最佳论文这脑洞绝了!直播回放丨让结肠癌病友获得最佳疗效的关键三步CIKM 2022最佳论文提名:证据感知的文档级关系抽取方法2022最强音:GameLook年度最佳游戏奖项公布回不去的国,几个美味家常菜CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全「诺奖风向标」2023年斯隆奖出炉:韩松、李远志等清华校友获奖
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。