自动驾驶技术的发展正迅速推进,而公开的自动驾驶数据集在这一进程中扮演着至关重要的角色。这些数据集不仅为研究人员和开发者提供了宝贵的资源,以支持他们在算法开发、系统测试和性能评估方面的工作,而且也为自动驾驶领域的创新和进步提供了动力。现有自动驾驶数据集可大致分为两代:第一代数据集的传感模态复杂度相对较低、数据集规模相对较小,且大多局限于感知级任务,第一代数据集以发布于 2012 年的 KITTI 为代表。相比于第一代数据集,第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上,第二代数据集以 2019 年前后提出的 nuScenes、Waymo 为代表。来自上海人工智能实验室、 上海交通大学等十几家机构的研究者合作,他们全面回顾了自动驾驶公开数据集的现状与挑战。针对数据算法闭环体系,结合当前大模型发展趋势,提出了下一代自动驾驶数据集的愿景与规划。并且系统性地总结了自动驾驶发展历程中所使用的数据集,并展示了通过挑战赛与榜单促进社区发展的重要性;概括性地分析了自动驾驶数据算法闭环体系,并总结其中各个重要环节的作用,带大家了解这个领域的机遇与挑战。为了更好的帮助大家了解这项研究,机器之心最新一期线上分享邀请到了上海人工智能实验室青年科学家李弘扬、上海人工智能实验室青年研究员李阳,为大家介绍关于自动驾驶开源数据的相关信息。李弘扬,上海人工智能实验室青年科学家。在相关国际会议与期刊如 CVPR、NeurIPS、T-PAMI 等发表文章 10 余篇。2022 年获 Waymo 自动驾驶国际知名挑战赛第一名;其工作 BEVFormer 获 2022 年全球最有影响力的 AI 论文 Top 100。UniAD 工作获 CVPR 2023 最佳论文提名奖。
李阳,上海人工智能实验室研究员。具有多个的自动驾驶量产项目交付经历,相关工作在国际会议与期刊如ECCV、NeurIPS等发表,发表专利10余项。2022年与团队协作获Waymo自动驾驶国际知名挑战赛第一名;主要研究方向为自动驾驶数据闭环与环境感知研究,其中OpenLaneV1、OpenLaneV2等在国际上取得领先地位,为多家自动驾驶公司提供了实际量产落地方案。分享摘要:本文首次系统性梳理了国内外七十余种开源自动驾驶数据集,对如何构建高质量数据集、发挥数据在算法闭环体系中发挥的核心作用。在此基础上,对新一代自动驾驶数据集所应具有的特征、数据规模、需要解决的关键科学展开深入分析与讨论。- https://github.com/OpenDriveLab/DriveAGI
- https://www.researchgate.net/publication/375331218_Open-sourced_Data_Ecosystem_in_Autonomous_Driving_the_Present_and_Future
直播间:关注机器之心机动组视频号,立即预约直播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者关注。