Redian新闻
>
今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶

今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶

公众号新闻
 夕小瑶科技说 原创
 作者 | Richard

自动驾驶的世界里,汽车不再只是简单的代步工具,而是一个能感知环境、预判未来的"智能体"。但要实现这样的进化,仅凭单独识别车辆、行人等目标还远远不够,汽车还需要对周围的一切有全局认识,甚至要有"预知未来"的能力。听起来是不是有点像科幻片里的情节?别急,最新的研究 DriveWorld 正在把这一切变为现实!

这个名为 DriveWorld 的 AI 系统脑洞大开,它并没有在真实世界里四处游荡,而是在一个虚拟的 4D 世界里经历了大量的自我训练。在这个数字世界里,它见识了各种复杂的道路场景,领略了车水马龙的街道、变幻莫测的天气……通过对海量驾驶数据的自学习,它渐渐拥有了对周围事物的整体理解,并学会了预判接下来会发生什么。

这种在虚拟世界中积累驾驶经验的方式,就像是给自动驾驶系统装上了一双"慧眼",让它能看到我们肉眼无法察觉的事物与变化。有了这样的预见能力,无人车就能更从容地应对复杂路况,带来更安全、更智能的出行体验。DriveWorld 用创新的思路为无人驾驶插上腾飞的翅膀,为车辆赋予"开天眼"的神奇能力。人工智能,让未来的道路充满无限可能!

论文标题:DriveWorld: 4D Pre-trained Scene Understanding via World Models forAutonomous Driving

论文链接:https://arxiv.org/pdf/2405.04390

人类驾驶VS自动驾驶,谁更胜一筹?

开车如"赌博",险象环生难预料

对于人类驾驶员而言,开车是一项复杂而充满挑战的任务。驾车途中我们不仅要时刻关注车辆状态、操控方向盘和踏板,还要观察周围的车辆行人、道路标识、交通信号灯等,随时准备应对突发情况。尤其在视线受阻、天气恶劣、车流密集的复杂路况下,稍有疏忽就可能酿成事故。相信经常开车的朋友一定知道,人流密集的县城道路是最难行驶的。

开车时驾驶员面临的情况可谓变幻莫测,就像一场充满风险的"赌博"游戏。前方是否会有行人突然横穿马路?急弯路段是否会有车辆违规超车?暴雨天气路面湿滑,刹车距离会延长多少?这些都是驾车过程中随时可能遇到的未知风险。对于这些突发状况,哪怕是驾龄多年的老司机也很难做出100%准确的判断。

然而,交通事故的发生往往就在这一瞬间。关键时刻,驾驶员能否及时察觉危险、果断决策、快速反应,对于生命安全至关重要。这对驾驶员的经验、意识、反应都提出了很高要求,稍不留神就可能铸成大错。正因如此,很多人开车时如履薄冰,时刻担心"车毁人亡"的悲剧发生。尤其在高速路段,心理压力会更大。

无人车"短视症",只见树木不见森林

当前自动驾驶汽车已经从科幻电影走进现实生活,在部分简单场景下实现了自动驾驶功能。然而在复杂路况下,要让无人车像人类老司机一样,对环境有整体认知、对风险有预判能力,仍有不小差距。

现有的自动驾驶系统,主要关注对车辆、行人、车道线等即时目标的感知和识别,缺乏对全局环境的整体理解力。它们就像一个"近视眼司机",只能看到眼前的几米路,无法洞察前方潜在的危险。此外,当前的算法大多基于特定场景下的训练数据,泛化能力不足,难以应对"超纲"的复杂场景。道路千变万化,要为每种情况编写规则、收集数据,成本过于昂贵。

从认知科学的角度看,人类驾驶员凭借多年经验形成的"心理模型",能够对周围环境进行整体评估,对未来变化做出预判。他们不仅关注眼前的路况,还能基于常识推理出潜在风险,提前做好应对准备。这种通过内在知识连接当下感知与未来预判的能力,是无人驾驶系统亟需具备的关键技能。

要让无人车胜任全天候、全路况的自动驾驶,仅靠单点突破、碎片化学习是远远不够的,必须学会融会贯通、举一反三的泛化智能。这就要求我们突破传统的训练范式,让算法像人类一样,在长期实践中习得内在的规律认知,形成完善的世界模型。

DriveWorld:自动驾驶界的"预言家"

神奇的"时空胶囊",让无人车洞悉未来

要攻克自动驾驶的"预判鸿沟",北京大学的最新研究给出了创新方案。研究团队提出了一种名为DriveWorld的自动驾驶4D表示学习框架。它利用多个车载摄像头采集的视频数据,在虚拟世界中对无人车进行大规模的自我训练,让其在"亿万小时"的驾驶体验中不断进化、升级感知预判能力。这种突破性的预训练方法,为自动驾驶系统装上了一双明察秋毫的"慧眼"和一颗洞若观火的"智脑"。下图是DriveWorld的整体框架,其主要包含以下模块:

  1. 多摄像头图像输入:DriveWorld利用车辆上多个视角的摄像头采集驾驶场景的视频片段,作为模型的输入数据。
  2. 图像编码器:该模块对输入的多视角图像进行特征提取,得到密集的图像特征表示。
  3. 2D到3D视图转换模块:该模块将提取到的2D图像特征通过一个变换模型(如Transformer或LSS)映射到3D鸟瞰图(BEV)视角下,得到统一的3D空间特征表示。
  4. 记忆状态空间模型:DriveWorld的核心模块,负责对3D空间特征进行时空建模。
  5. 解码器:负责根据记忆状态空间模型输出的特征,同时预测未来多个时间步的驾驶行为和对应的3D占用栅格地图。
  6. 任务提示:将不同下游任务的描述用预训练的文本编码器编码为语义表示,作为任务提示与图像特征融合,解耦不同任务所需的特征表示,提高模型的泛化能力。

DriveWorld的核心创新在于其独特的时空建模方法。它摒弃了将时间和空间割裂处理的传统做法,转而采用记忆状态空间模型(Memory State-Space Model)来统一时空表征学习。该模型包含两大关键模块:动态记忆库(Dynamic Memory Bank)和静态场景传播(Static Scene Propagation)。

  1. 动态记忆库模块的作用是学习时序感知的潜在动态特征。通过引入运动感知的层归一化和注意力机制,该模块能够捕捉场景中的动态变化,挖掘不同时间步之间的因果关联,形成对未来的预判。
  2. 静态场景传播模块则负责从空间维度建模潜在的环境上下文。它直接利用Bird-Eye-View(BEV)特征表征整个驾驶场景,保留丰富的空间结构信息。

两大模块互为补充,让DriveWorld形成了对周围世界全面、连贯的4D认知。

无人车也要"脱盲"?多任务学习来帮忙

成为一名全能司机,需要掌握环境感知、风险预测、决策规划等多项技能,并在实践中将其融会贯通。DriveWorld通过多任务协同训练,让无人驾驶系统学会了这一整套本领。

具体而言,研究人员在模型设计中融入了任务提示机制。它以预训练语言模型为桥梁,引入不同任务的语义描述,解耦不同任务所需的特征表示。面对不同任务需求,DriveWorld能够快速适配、灵活应变,展现出多才多艺的一面。

任务提示让DriveWorld在感知、预测、规划等关键任务上全面开花。它不仅能精准检测车辆、行人等即时目标,还能预判他们未来数秒的运动轨迹。同时,它还掌握了道路分割、可驾驶区域预测等语义理解技能,以及道路状态评估、碰撞风险预警等高层决策能力。多维技能的协同进化,让DriveWorld初步具备了类人的驾驶智能。

创新背后的"方法论革命"

DriveWorld之所以能在多个自动驾驶任务上取得瞩目表现,归功于其在方法论层面的重大突破。

首先,DriveWorld开创了虚拟世界中的自监督学习范式。有别于在真实道路上收集数据,它直接在虚拟环境中自主探索,通过海量的模拟驾驶积累经验。这不仅降低了数据采集成本,还让模型获得了更丰富、更极端的训练样本。

其次,DriveWorld实现了端到端的时空表征学习。传统方法往往将时间和空间特征割裂开来,导致信息损失。DriveWorld则以端到端的方式,统一建模时空依赖关系,让模型形成更全面、更连贯的世界认知。

此外,DriveWorld还引入了记忆机制和注意力机制。记忆机制让模型能长期保存和更新重要的环境信息,注意力机制则让其聚焦于关键线索。两者的结合大大提升了预测的准确性和时效性。

最后,DriveWorld独特的跨模态任务提示机制,以语言描述为桥梁,实现视觉与决策的无缝衔接。这让模型能够灵活地应对多个下游任务,体现出更强的泛化能力。

这些方法论创新彰显了DriveWorld在无人驾驶领域的引领地位。它开创的4D时空表征学习范式,必将在自动驾驶乃至更广泛的人工智能领域产生深远影响。

性能逆天!DriveWorld勇夺自动驾驶超级“大满贯”

DriveWorld不仅在理论上独树一帜,在实验中也以出色的性能验证了其有效性。研究人员在自动驾驶领域公认的nuScenes数据集上,将DriveWorld与现有SOTA方法进行了全面对比。这场算法界的"巅峰对决"涵盖了3D目标检测、语义/实例分割、轨迹预测等多项关键任务。无论在哪个任务上,DriveWorld都展现出了"一骑绝尘"的优势。

下图展示了各模型在3D目标检测任务的评估结果。可以看到,在mAP、NDS等关键指标上,DriveWorld都全面超越了之前的最优方法,提升幅度高达7.5%和6.8%。这意味着DriveWorld能够更加精准地检测出环境中的车辆、行人等关键目标,为下游任务提供更可靠的感知基础。

轨迹预测方面DriveWorld的表现同样亮眼。DriveWorld的平均和最终位移误差(minADE和minFDE)较之前最优方法分别降低了0.1m和0.11m,而失败率(MR)和成功率(EPA)也有明显改善。这表明,DriveWorld能更准确地预判交通参与者在未来几秒内的运动趋势,为危险预警、决策规划等提供可靠依据。

在线地图构建和区域分割方面,DriveWorld也交出了一份漂亮的"成绩单"。如下图所示,其在车道、可行驶区域、路沿等关键区域的分割精度均有2-5%的提升。文中进一步对DriveWorld生成的分割结果进行了可视化对比,可以看出其预测更加准确、完整,边界也更加清晰平滑。高质量的语义地图为自动驾驶提供了坚实的"地基"。

除了常规的评估任务,研究人员还特别设计了规划任务来考察DriveWorld的决策能力。DriveWorld生成的规划路径在1-3s未来时间段内的平均跟踪误差比之前最优方法降低了0.34m,碰撞率也大幅降低。这意味着,DriveWorld规划的行驶路径更加安全、平稳,能够充分避让障碍物。

值得一提的是,为了测试DriveWorld的泛化能力,研究人员还在一个更大规模的自动驾驶数据集SemanticKITTI上进行了实验。尽管该数据集在采集设备、场景内容等方面与nuScenes都有较大差异,DriveWorld依然取得了领先的性能表现。这充分证明了DriveWorld习得的驾驶技能具有很强的鲁棒性和适应性,能够应对更多变的交通场景。

下图以更直观的方式展示了DriveWorld在3D占用栅格预测任务上的优异表现。通过对比GT(ground truth)和DriveWorld在不同未来时刻的预测结果,可以看出DriveWorld能够准确预测车辆、行人、自行车等交通参与者的运动趋势,生成的占用栅格图与真值高度吻合。这为自动驾驶系统提前洞察危险、及时做出规划决策提供了重要依据。

大量实验结果犹如一座座奖杯,见证了DriveWorld在感知、预测、规划等关键自动驾驶任务上的全方位胜利。这些进步归根结底要归功于DriveWorld开创的时空表征学习新范式,它必将在无人驾驶领域掀起一场革命性的浪潮!

"AI司机"的进化之路,未来可期!

DriveWorld的问世,为无人驾驶技术带来了新的曙光。它通过打通感知、预测、规划等关键任务,为无人车插上了腾飞的翅膀,让全天候、全路况的自动驾驶离我们更近一步。

不过我们也要认识到,打造完美的"AI司机"仍然任重道远。如何进一步提升算法的泛化性和鲁棒性,如何在极端恶劣条件下确保行车安全,如何平衡技术进步与伦理道德的边界,这些都是摆在研究者和决策者面前的难题。

尽管挑战重重,但DriveWorld为我们指明了通往未来的方向。它开创的端到端时空建模范式,不仅有望重塑自动驾驶,更将为其他领域的智能化注入新的活力。随着人工智能技术的日益精进,我们有理由相信,未来的某一天,当我们坐进自动驾驶汽车,那个全天候守护我们出行安全的"AI司机",将不再只存在于想象之中。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热大模型论文:减少语法错误,竟成了突破口!识别AI生成文本,AUROC达98.7%今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准今日arXiv最热大模型论文:AI"参审",论文评审迎来"神助攻"?今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT今日arXiv最热大模型论文:忘记"也是一门学问:机器如何忘记自己学到的知识?爱的意义今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!#郭文贵 #华盛顿农场 郭农场大肆敛财,蚂蚁们血本无归今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath#郭文贵#华盛顿农场#郭农场就是一场金融骗局今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu怎样减免卖房后的资本利得税?《玉兰花赞》&《天涯灯火》今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。