顶会CoRL 2023获奖论文出炉！华人团队获最佳论文、最佳系统论文！

2023-11-10 16:11

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【计算机视觉和Transformer】交流群

转载自：机器之心 | 编辑：小舟、娄佳琪

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文，强烈推荐！

聚焦大模型+机器人。

自 2017 年首次举办以来，CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议，涵盖机器人学、机器学习和控制等多个主题，包括理论与应用。

2023 年的 CoRL 大会于 11 月 6 日至 9 日在美国亚特兰大举行。据官方数据透露，今年来自 25 个国家的 199 篇论文入选 CoRL，热门主题包括 manipulation、强化学习等。虽然相比于 AAAI、CVPR 等大型 AI 学术会议，CoRL 的会议规模还相对小很多，但随着今年大模型、具身智能、人形机器人等概念的火热，CoRL 会议上的相关研究也非常值得关注。

目前，CoRL 2023 官方已公布最佳论文奖、最佳学生论文奖、最佳系统论文奖等奖项。接下来，我们将为大家介绍一下这些获奖论文。

最佳论文

论文：Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
作者：William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola
机构：MIT CSAIL、IAIFI
论文地址：https://openreview.net/forum?id=Rb0nGIt_kh5

论文简介：当前，自监督和语言监督的图像模型已经包含丰富的世界知识，这对于泛化来说非常重要，但图像特征是二维的。我们知道，机器人任务通常需要对现实世界中三维物体的几何形状有所了解。

该研究利用蒸馏特征场（Distilled Feature Field，DFF），将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。

具体来说，该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法，并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征，该研究提出了一种通过开放性的自然语言指令对新物体进行操作，并展示了这种方法泛化到未见过的表达和新型物体的能力。

这篇论文的两位共同一作是 CSAIL 「具身智能」团队的成员 William Shen 和杨歌，其中杨歌是 2023 年 CSAIL 具身智能研讨会的共同筹办人。

机器之心曾详细介绍过这篇研究，请参考《大模型加持的机器人有多强，MIT CSAIL&IAIFI 用自然语言指导机器人抓取物体》。

最佳学生论文

论文：Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
作者：Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar
机构：普林斯顿大学、Google DeepMind
论文地址：https://openreview.net/forum?id=4ZK8ODNyFXx

论文简介：从逐步规划到常识推理，大型语言模型（LLM）展现出大量在机器人领域未来可期的能力，但 LLM 存在幻觉问题。

基于此，该研究提出了一种新框架 ——KnowNo，用于度量和对齐基于 LLM 的规划器的不确定性。它能够使 LLM 意识到哪些信息是未知的，并在有需要时求助。

KnowNo 建立在共形预测（conformal prediction）理论的基础上，为任务完成提供统计保证，同时能够最大限度地减少多步骤规划任务中的人工干预。

该研究在各种模拟和真实机器人实验中，用各种模式的不确定任务（包括空间不确定性、数字不确定性等等）对 KnowNo 进行了测试。实验结果表明， KnowNo 在提高效率和自主性方面表现出色，优于基线，并且安全可信。KnowNo 能够在不进行模型微调的情况下直接用于 LLM，为模型的不确定性提供了一种有效的轻量级解决方法，并能够与基础模型不断增强的能力相辅相成。

最佳系统论文

论文：RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools
作者：Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu
机构：斯坦福大学、UIUC
论文地址：https://openreview.net/forum?id=69y5fzvaAT

论文简介：人类擅长制造和使用各种工具，但对于机器人而言，理解如何有效使用工具，并在相应的物体上完成操作仍然是一个很大的挑战。该研究构建了一个名为 RoboCook 的智能机器人系统，该系统能够通过各种工具感知、建模并操纵弹塑性物体（elasto-plastic object）。

RoboCook 使用点云场景表征，利用图神经网络（GNN）对工具与物体的相互作用进行建模，并将工具分类与自监督策略学习相结合，以制定操作计划。

该研究表明，对于每个工具，仅需 20 分钟的现实世界交互数据，RoboCook 就能学会并操纵机械臂完成一些复杂的、长时程的弹塑性物体操作任务，例如制作饺子、字母饼干等。

实验表明，RoboCook 的性能大大优于现有 SOTA 方法，对严重的外部干扰也能表现出稳健性，对不同材料的适应性也较强。

值得一提的是，这篇论文的共同一作分别是来自斯坦福大学的博士生 Haochen Shi、原斯坦福大学博士后研究员、现清华大学交叉信息科学研究所助理教授 Huazhe Xu，论文作者之一是姚班校友、斯坦福大学助理教授吴佳俊。

获奖论文完整入围名单

参考链接：

https://www.corl2023.org/awards

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

顶会CoRL 2023获奖论文出炉！华人团队获最佳论文、最佳系统论文！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【计算机视觉和Transformer】交流群

转载自：机器之心 | 编辑：小舟、娄佳琪

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文，强烈推荐！

AI/CV重磅干货，第一时间送达
点击进入—>【计算机视觉和Transformer】交流群