Redian新闻
>
CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例

CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例

公众号新闻
金磊 假装发自 温哥华
量子位 | 公众号 QbitAI

这个高光时刻,属于自动驾驶,属于大模型,更是属于中国团队

就在刚刚,CVPR 2023最佳论文新鲜出炉,2篇论文从总量高达9155篇的投稿中脱颖而出。

对于这2篇最佳论文中的任何一个,可以说用“万里挑一”来形容都不足为过了。

第一篇名为Planning-oriented Autonomous Driving(以路径规划为导向的自动驾驶),由上海人工智能实验室、武汉大学及商汤科技联合完成。

据了解,这是近十年来,计算机视觉三大顶级国际会议(CVPR、ICCV、ECCV)上,第一篇以中国学术机构作为第一单位的最佳论文。

第二篇名为Visual Programming: Compositional visual reasoning without training(视觉编程:未经训练的组合视觉推理),由艾伦人工智能研究所发表。

而在最佳论文的“候选名单”中,不乏谷歌、斯坦福大学、康奈尔大学等在内的顶尖企业和高校。

竞争之激烈,可见一斑。

那么这两篇为何能在众多论文中成为佼佼者,我们继续往下看。

首次提出感知决策一体的自动驾驶通用大模型

自动驾驶历来被人们称为集AI技术之大成者。

一般在自动驾驶任务中,通常包含三大模块,分别是感知、预测和规划,不过主流方案通常是分开来处理具体任务。

由此导致的缺陷也是比较明显,要么是任务之间协调不足,要么是影响到了整体性能的提升。

基于这样的一个背景,这篇论文便首次提出了感知决策一体化的自动驾驶通用大模型——UniAD

UniAD是一个综合框架,将全栈驾驶任务整合到一个基于Transformer的端到端网络中。

除了我们刚才提到的三个主任务之外,还包括六个子任务,包括目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划。

那么如此“大一统”的方式之下,结果又如何?

根据论文显示,在nuScenes真实场景数据集中,UniAD的所有任务均达到SOTA!

具体“实战”效果如下:

在面对采访时,上海人工智能实验室青年科学家李弘扬介绍:

凭借其充分的可解释性、安全性、与多模块的可持续迭代性,UniAD是目前为止最具希望实际部署的端到端模型。

值得一提的是,除了这篇最佳论文之外,上海人工智能实验室和商汤科技在本届CVPR中均取得了不凡的表现。

两个单位还联合斩获了一篇最佳论文候选,共计54篇论文被接收。

通过编写代码解决计算机视觉任务的AI

在第二篇论文中,研究人员提出了VISPROG,是一种神经符号结合(Neuro-Symbolic)的方法,用于在给定自然语言指令的情况下解决复杂和组合的视觉任务。

VISPROG无需对任何特定任务进行专门训练。

相反,它利用大语言模型的上下文学习能力,生成类似Python代码的模块化程序,然后执行这些程序来获得解决方案和全面且可解释的理由。

生成的程序的每一行可能会调用多个现成的计算机视觉模型、图像处理程序或Python函数,来生成可能被程序的后续部分使用的中间输出。

研究人员在四个不同的任务上展示了VISPROG的灵活性,包括组合视觉问答、对图像对进行零样本推理、事实知识对象标签和以语言引导的图像编辑。

研究人员表示:

像VISPROG这样的神经符号方法是令人兴奋的,它可以轻松有效地对AI系统做扩展,满足人们可能希望执行的复杂任务需求。

CVPR 2023其它奖项一览

除了2篇最佳论文之外,其它奖项也在刚刚的开幕式中逐一浮出水面。

最佳学生论文——

3D Registration with Maximal Cliques。

这篇论文的作者来自西北工业大学,提出了一种新的3D点云配准方法,能够获得最优的姿态假设。

最佳学生论文荣誉奖——

DreamBooth: Fine Tuning Text-to-lmage Diffusion Models for Subject-Driven Generation。

来自谷歌,可以基于少量的图片,利用text-to-image模型将其转换到不同场景中,并且保持高分辨率。

这篇论文的方法已在AI绘画社区被广泛使用。

除此之外,大会还颁发了PAMITC奖,包括Longuet-Higgins奖、年轻研究者奖以及Thomas Huang纪念奖。

Longuet-Higgins奖——

年轻研究者奖——

Thomas Huang纪念奖——

关于本届最佳论文更细致的内容,可戳下方链接查看详情:

两篇最佳论文地址:
[1]
https://arxiv.org/abs/2212.10156
[2]https://arxiv.org/abs/2211.11559

参考链接:
[1]
https://twitter.com/cvpr/status/1671545306838626306?s=46&t=iTysI4vQLQqCNJjSmBODPw
[2]https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A
[3]https://finance.eastmoney.com/a/202306212759316444.html
[4]https://github.com/OpenDriveLab/UniAD
[5]https://blog.allenai.org/visual-programming-ca58c7af51cd

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清平乐:东篱一曲欣然长篇小说:九针 (39)近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文富豪相亲会(小小说)《七绝》晓春 2023年4月2日上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!【附PDF】整理了114篇医疗论文,含cvpr2023医疗论文+经典论文+医疗论文综述等什么样的方案,夺得了CVPR自动驾驶挑战赛冠军?ACL 2023奖项公布:3篇最佳论文、39篇杰出论文,多家国内机构上榜近三年CV顶会上的自动驾驶点云论文合集我给自动驾驶做标注,2毛钱拉一个框,月薪3000元CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D世界首颗AI全自动设计CPU!中国团队重磅推出,性能堪比486,规模提升4000倍视觉中国回应摄影师发自己作品被告侵权 / iPhone 15 Pro支持 Wi-Fi 6E / 特斯拉全自动驾驶将入华CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023 | 计算机视觉顶会亮点前瞻首个感知决策一体化自动驾驶通用大模型!商汤联合团队获CVPR 2023最佳论文CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选CVPR最佳论文:大模型成就端到端自动驾驶|焦点分析CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会谈谈美元10年首次登顶!CVPR 2023大奖揭晓:上海AI实验室/武大/商汤破纪录夺魁,西工大斩获最佳学生论文毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项座舱交互/自动驾驶开发/智能驾驶辅助训练...AIGC和大模型席卷智能网联汽车CVPR 2023|All in UniSim:统一的自动驾驶仿真平台一天自动发现四大数据库100+漏洞,浙大研究获SIGMOD 2023最佳论文「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文ACL 2023最佳论文出炉!CMU西交大等摘桂冠,杰出论文奖华人学者占半壁江山特斯拉路线,奔向自动驾驶大规模量产的「唯一解」微信视觉团队斩获CVPR 2023视频相似性大赛双赛道冠军!CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。