Redian新闻
>
基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023

基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023

公众号新闻

机器之心专栏

机器之心编辑部

通过观看大量网络上的驾驶视频,模型能否学会驾驶策略?

2023 年 1 月 21 日,人工智能顶级会议 ICLR 2023(International Conference on Learning Representations)投稿结果正式公布。上海人工智能实验室自动驾驶 OpenDriveLab 团队成果 —— 基于自监督几何建模的自动驾驶策略预训练方法(PPGeo)被正式录用。PPGeo 是一个基于几何建模的自监督预训练框架,利用大量无标注网络驾驶视频,以自监督的方式对驾驶策略进行预训练,将会显著提升下游端到端感知决策任务的性能


驾驶策略学习的特殊性


自动驾驶领域中的端到端驾驶策略学习将原始传感器数据(图片,车身信号,点云等)作为输入,直接预测控制信号或规划路线。由于驾驶环境的复杂性和不确定性以及传感器数据中的大量无关信息,对于端到端的驾驶策略模型,从头开始学习是很困难的,它通常需要大量的标注数据或环境交互反馈才能达到令人满意的性能。


如图 1 所示,自然环境中存在着许多不需要关注的信息如建筑物、天气变化以及光照变化等,于驾驶任务而言,下一步往哪里行驶,信号灯是否允许通行,这些信息才是真正需要关注的。

 

  • (a) 静态障碍物和背景建筑物(黄色矩形中的物体)与驾驶决策无关;

  • (b) 视觉输入中的交通信号(标有绿色框)仅占图片的很小一部分,但对于控制输出而言却是确定性的; 

  • (c) 端到端驾驶策略模型必须对不同的光照和天气条件具有鲁棒性。


图 1:PPGeo 研究动机


当前预训练方法在策略学习任务中的限制


为解决端到端的驾驶策略模型对于大规模标注数据的需求,采用无标注的驾驶视频 (如图 2)数据对驾驶策略模型的感知部分进行预训练是很自然的思路,因此获得了非常广泛有效的应用,主流的预训练方法包括分类,对比学习,掩码图像建模。然而,不同于常见的检测和分割任务,端到端驾驶策略学习对自车的位姿敏感,缺乏平移或视角不变性。这也使得常见视觉任务预训练的常胜将军们,在端到端驾驶策略学习任务上败下阵来。由于上文提到的端到端驾驶任务输入的特殊性,其他机器人领域的视觉控制任务使用的预训练方法在这里也表现相对有限。


图 2:YouTube 上驾驶视频数据示例


对此,OpenDriveLab 团队提出一个基于自监督几何建模的端到端自动驾驶策略预训练方法(PPGeo)



  • 论文地址:https://arxiv.org/abs/2301.01006

  • 项目地址:https://github.com/OpenDriveLab/PPGeo


基于自监督几何建模的策略预训练


PPGeo 分为两个阶段,在第一阶段,根据时序前后帧图像训练位姿和深度预测网络;在第二阶段,利用第一阶段训练的深度网络和位姿网络监督单图像输入的视觉编码器,完成视觉编码器的预训练。将使用 PPGeo 预训练后的视觉编码器进行微调,可以适配于下游不同的端到端自动驾驶任务。实验表明,基于 PPGeo 的预训练方法相比于其他预训练方法在下游任务上具有更好的驾驶性能。


图 3:PPGeo 的概述。(a) 在第一阶段 (a.1), 利用前后帧图像作为输入,训练一个位姿预测网络 PoseNet 和深度预测网络 DepthNet,位姿预测网络通过比较前后帧图片推测出自车运动,并结合深度和相机内参估计完成两帧之间的像素对应,从而形成监督。在第二阶段 (a.2),待预训练的视觉编码器仅以单帧图像作为输入,在当前帧图像中捕捉与驾驶策略真正相关的信息来预测自车运动,并利用第一阶段获得的内参和深度估计完成像素对应。在这个说明性的例子中,自车需要刹车。位姿预测网络(a.1)根据连续两帧几乎没有变化来推断出刹车行为;而视觉编码器(a.2)根据单一视觉输入中前方有他车来做出预测。(b) 视觉编码器可以被微调并应用于广泛的下游任务中。


第一阶段 - 自监督的几何建模


通过给定一个目标图像 I_t 和源图像 I_(t^' ),估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动。根据这些估计结果,我们可以对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像,根据重建的光度误差计算损失进行自监督训练。


第二阶段 - 视觉运动策略预训练


经过第一阶段的训练后,估计深度的 DepthNet 和估计位姿变化的 PoseNet 经过良好的训练,已经拟合了驾驶视频数据。在第二阶段,我们将用于下游驾驶策略学习任务的视觉编码器 φ(X) 替换 PoseNet。现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动。当前到未来帧的自车运动直接与当前时刻下的驾驶决策或行动相关, 因此视觉编码器能够通过预测自车运动学习到实际的驾驶策略。


至此,视觉编码器 φ(X) 已经从大量的驾驶视频中获得了关于驾驶策略的知识。它可以作为初始权值应用于下游的端到端自动驾驶任务。此外,经过在大量无标注校准的视频数据上训练的 DepthNet 和 PoseNet 也可以用于深度和测程估计任务。


PPGeo 性能比较


PPGeo 的预训练实验是在大量无标注的 YouTube 驾驶视频上进行。我们在 1Hz 的频率下总共采样了 80 万帧样本来进行训练,训练样本涵盖了诸如地理位置和天气等不同的驾驶条件(如上图 2)。


下游自动驾驶任务实验


Navigation&Navigation  Dynamic - 基于 CARLA 的两个用于模拟学习的闭环驾驶任务


我们使用不同大小的训练数据(从 4K 到 40K)在标记数据有限的情况下评估预训练视觉编码器的泛化能力并进行闭环评估。评估指标是成功率,表示在 50 条预定义路线中完成驾驶路线没有发生任何碰撞的比率。相较于 Navigation 任务,Navigation Dynamic 中还包括其他动态车辆和行人(如图 4)。


图 4:导航和导航动态任务的前视图图像示例


表 1:闭环导航任务的成功率结果


可以看到,模型在从 10%  (4K)  到 100%(40K)的不同数量的微调样本下进行测试。在训练样本量特别小的情况下,PPGeo 依然表现出有竞争力的表现,并且相对其他方法有超过 100% 的提升。这验证了预训练视觉编码器的泛化能力,这在适应标记数据非常有限的新环境时非常重要。


Leaderboard‑Town05‑long


Leaderboard‑Town05‑long 的 10 条长距离路线任务更接近现实世界的城市驾驶,在路线中添加了不同的挑战性场景。由于此任务中具有挑战性的场景,我们使用最先进的基于单帧图像的自动驾驶模型 TCP (NeurIPS 2022)来评估不同的预训练方法。该任务的主要指标是驾驶分数、路线完成和违规分数(均越高越好)。


如表 2 所示,在更具挑战性和真实世界风格的 Leaderboard Town05-Long 任务中,使用我们的方法预训练的模型获得了最高的驾驶分数和违规分数。PPGeo 可以很好地处理自车需要刹车的情况,从而大大减少车辆碰撞和闯红灯的情况。


表 2:闭环任务 Town05-long 任务结果。除三个主要指标外,其余违规详细信息(越低越好)上 PPGeo 也均表现优秀


强化学习在 CARLA 中的驾驶任务


我们进一步验证预训练方法对于强化学习任务的帮助。我们使用强化学习算法近端策略优化  (PPO)  在 CARLA Town01 环境中训练使用不同预训练权重初始化的 CILRS 模型(左)。我们进一步实验在训练期间冻结预训练的视觉编码器(右),以更好地研究预训练特征表示的有效性。


图 5:使用  PPGeo  和其他三个最佳预训练方法的强化学习学习曲线。左:预训练视觉编码器在 RL 训练期间联合微调;右:视觉编码器在 RL 训练期间被冻结


NuScenes 上的开环规划任务


我们使用真实世界的 NuScenes 数据集评价不同时间长度下的轨迹规划预测与实际真实轨迹之间的 L2 距离以及规划轨迹导致的碰撞率。相较其它预训练方法,PPGeo 在下游开环规划任务上也取得了最优的效果。


表 3:NuScenes 开环轨迹规划结果


可视化结果


图 6 展示的是不同预训练方法学习的特征表示的热图。在许多情况下,我们的模型关注部分主要集中在与驾驶高度相关的自车前方的车道。PPGeo 还很好地捕捉到了导致刹车动作的特定线索,包括前方车辆(第 3 和 4 行)和交通信号灯(第 5 行)。我们还观察到,使用 ImageNet 分类预训练的模型倾向于捕获图像中的显著对象,当显著对象与驾驶决策直接相关时(第 4 行),该模型可以正常工作;但当输入包含其他不相关信息时(第 2 行和第 3 行),该模型可能会关注错误的对象。


图 6:驾驶视频数据上不同预训练方法学习表征的可视化热图


消融研究


就表 4 中的导航任务对 PPGeo 的不同设计进行了消融研究。同时在单个阶段(第 1 行)训练视觉编码器和 DepthNet 导致性能变差,这表明同时从头开始进行对深度估计网络和预测自车运动的视觉编码器的训练过于困难。此外,在第二阶段(第 2 行)联合优化 DepthNet 会降低深度估计质量并损害性能。在第 3 行中,我们观察到利用第一阶段获得的 PoseNet 提供伪标签监督将会导致较差的结果,因为单个不准确的伪标签在很大程度上对学习过程造成影响,而通过像素重建的方式可以获得更加稠密丰富的监督。


表 4:PPGeo 的关键设计消融研究


总结


  • 我们提出了一种针对视觉运动驾驶任务的预训练范式 PPGeo。这是第一个完全自监督的预训练框架,不需要任何标签和额外数据,可以充分利用大规模的无标注数据。

  • 经过预训练的视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征。这种视觉编码器的设计可以灵活地扩展到各种下游应用程序。

  • 我们在一系列端到端驾驶任务上展示了我们的方法的优越性,涵盖了不同的类型和难度级别。在数据非常有限的具有挑战性的情况下,各种指标方面的性能从 2% 提高到甚至超过 100%。

  • 使用第一阶段训练后的 DepthNet 和 PoseNet 作为初始权重,并在 KITTI 上进行实验。证明了通过大规模驾驶视频的预训练也可以提高深度和测程估计任务的性能,这是我们的预训练框架的额外收获。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度研究院发布2023年十大科技趋势,锚定「AI向实」:行业大模型生态初现,自动驾驶、AIGC、量子科技等智能化创新更加务实Eruope 2023IEEE标准协会网络研讨会 | 我们是否准备好了迎接自动驾驶和人工驾驶车辆的混合交通?传苹果平价头显定价接近iPhone/特斯拉自动驾驶视频被曝伪造/网易上新暴雪绿茶ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练基于预训练语言模型的可控文本生成ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成资本家牢狱管理打工人跳楼自杀我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词从训练系统到驯化人类,自动驾驶安全员眼中的未来​ICLR 2023 | 基于知识图谱的多模态类比推理ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络​ICLR 2023 | 标识分支结点,提升图神经网络对环的计数能力疫苗一针大病一场MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型一个秘密转:2023 回国探亲(5)VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022CVPR 2022 Oral | LAS-AT: 一种基于可学习攻击策略的对抗训练新范式AAAI 2023 | 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA「自动驾驶 数据标注」爆发,起底五大创业新秀的商业机密|汽车数智内参国际要闻简报,轻松了解天下事(03CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法表中贵族,认知与实际的偏差CVPR 2022 | LAS-AT:一种基于可学习攻击策略的对抗训练新范式你要不要走出舒适圈?小马智行彭军:自动驾驶是一场长跑,要有耐力,也要有瞬时爆发力|中国自动驾驶十人专访微软否认超万人大裁员;特斯拉自动驾驶视频造假:是马斯克要求的;滴滴App重新上架安卓市场|Q资讯未来十年,我们需要什么样的自动驾驶芯片? |中国自动驾驶十人专访轻舟智航创始人兼CEO于骞 :在自动驾驶寒冬中出生,在马拉松长跑中追赶|中国自动驾驶十人专访国际要闻简报,轻松了解天下事(03AI自给自足!用合成数据做训练,效果比真实数据还好丨ICLR 2023ICLR 2023 | 高分论文!上海交大提出H2RBox:旋转目标检测新网络平均交付准确率99%以上!又一大厂进军自动驾驶AI数据服务,教AI学会人类标注能力OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架2023 春 祝姐妹们周末快乐!ICLR 2022 | DBD:基于分割后门训练过程的后门防御方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。