Redian新闻
>
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测

伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测

公众号新闻

机器之心专栏

作者:沈煦
Dragon Lake Parking (DLP) 数据集以无人机正射航拍视角,提供了大量经过标注的高清 4K 视频和轨迹数据,记录了在停车场环境内,不同类型的车辆、行人和自行车的运动及交互行为。数据集时长约 3.5 小时,采样率为 25Hz,覆盖区域面积约为 140 m x 80 m,包含约 400 个停车位,共记录了 5188 个主体。数据集提供两种格式:JSON 和原视频 + 标注,可服务的研究方向包括:大规模高精度目标识别和追踪、空闲车位检测、车辆和行人的行为和轨迹预测、模仿学习等。

在自动驾驶技术不断迭代的当下,车辆的行为和轨迹预测对高效、安全驾驶有着极为重要的意义。动力学模型推演、可达性分析等传统的轨迹预测的方法虽然有着形式明晰、可解释性强的优点,但在复杂的交通环境中,其对于环境和物体交互的建模能力较为有限。因此,近年来大量研究和应用都基于各种深度学习方法(例如 LSTM、CNN、Transformer、GNN 等),各类数据集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也纷纷涌现,为训练和评估深度神经网络模型提供了强力支持,不少 SOTA 模型例如 GroupNet、Trajectron++、MultiPath 等都表现出了良好的性能。

以上模型和数据集都集中在正常的道路行驶场景下,并充分利用车道线、交通灯等基础设施和特征辅助预测过程;由于交通法规的限制,绝大多数车辆的运动方式也较为明确。然而,在自动驾驶的 “最后一公里”—— 自动泊车场景下,我们将面对不少新的困难:

  • 停车场内的交通规则和车道线要求并不严格,车辆也经常随意行驶 “抄近路”
  • 为了完成泊车任务,车辆需要完成较为复杂的泊车动作,包括频繁的倒车、停车、转向等。在驾驶员经验不足的情况下,泊车可能成为一个漫长的过程
  • 停车场内障碍物较多且杂乱,车间距离较近,稍不留神就可能导致碰撞和剐蹭
  • 停车场内行人往往随意穿行,车辆需要更多的避让动作

在这样的场景下,简单套用现有的轨迹预测模型难以达到理想的效果,而重新训练模型又缺乏相应数据的支持。当下基于停车场景的数据集例如 CNRPark+EXT 和 CARPK 等,都仅为空闲停车位检测而设计,图片来源于提供监控相机第一人称视角、采样率低、且遮挡较多,无法用于轨迹预测。

在 2022 年 10 月刚刚结束的第 25 届 IEEE 智能交通系统国际会议 (IEEE ITSC 2022) 中,来自加州大学伯克利分校的研究者们发布了首个针对停车场景的高清视频 & 轨迹数据集,并在此数据集的基础上,利用 CNN 和 Transformer 架构提出了名为 “ParkPredict+” 的轨迹预测模型



  • 论文链接:https://arxiv.org/abs/2204.10777
  • 数据集主页、试用和下载申请:https://sites.google.com/berkeley.edu/dlp-dataset (如无法访问,可尝试备用页面 https://cutt.ly/dlp-notion )
  • 数据集 Python API:https://github.com/MPC-Berkeley/dlp-dataset

数据集信息

数据集由无人机进行采集,总时长为 3.5 小时,视频分辨率为 4K,采样率 25Hz。视野范围覆盖了约 140m x 80m 的停车场区域,共计约 400 个停车位。数据集经过精确标注,共采集到 1216 辆机动车、3904 辆自行车和 3904 位行人的轨迹。


经过重新处理后,轨迹数据可以 JSON 的形式读取,并加载为连接图(Graph)的数据结构:

  • 个体(Agent):每个个体(Agent)即为一个在当前场景(Scene)下运动的物体,具备几何形状、类型等属性,其运动轨迹被储存为一个包含实例(Instance)的链表(Linked List)
  • 实例(Instance):每个实例(Instance)即为一个个体(Agent)在一帧(Frame)中的状态,包含其位置、转角、速度和加速度。每个实例都包含指向该个体在前一帧和后一帧下实例的指针
  • 帧(Frame):每一帧(Frame)即为一个采样点,其包含当前时间下所有可见的实例(Instance),和指向前一帧和后一帧的指针
  • 障碍物(Obstacle):障碍物即为在此次记录中完全没有移动的物体,包含各个物体的位置、转角和几何尺寸
  • 场景(Scene):每个场景(Scene)对应于一个录制的视频文件,其包含指针,指向该录制的首帧和尾帧、所有个体(Agent)和所有障碍物(Obstacle)


数据集提供两种下载格式:

仅 JSON(推荐):JSON 文件包含所有个体的类型、形状、轨迹等信息,可以通过开源的 Python API 直接读取、预览、并生成语义图像(Semantic Images)。如果研究目标仅为轨迹和行为预测,JSON 格式可以满足所有的需求。


原视频和标注:如果研究是基于相机原图像(Raw Image)的目标检测、分隔、追踪等机器视觉领域课题,那么可能会需要下载原视频和标注。如有此需要,需要在数据集申请中明确描述该研究需求。另外,标注文件需自行解析。


行为和轨迹预测模型:ParkPredict+

作为应用示例,在 IEEE ITSC 2022 的论文《ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究团队利用此数据集,基于 CNN 和 Transformer 架构实现了在停车场场景下车辆的意图(Intent)和轨迹(Trajectory)预测。


   
团队利用 CNN 模型,通过构建语义图像(Semantic Images),实现了对于车辆意图(Intent)分布概率的预测 。该模型仅需要构建车辆局部的环境信息,且可根据当前环境,不断变化可供选择的意图数量。


团队通过改进 Transformer 模型,将意图(Intent)预测结果、车辆的运动历史、周边环境的语义图作为输入提供,实现了多模态(Multi-modal)的意图和行为预测。


总结

  • 作为首个针对泊车场景的高精度数据集,Dragon Lake Parking (DLP) 数据集可为该场景下大规模目标识别和追踪、空闲车位检测、车辆和行人的行为和轨迹预测、模仿学习等研究提供数据和 API 支持
  • 通过使用 CNN 和 Transformer 架构,ParkPredict + 模型在泊车场景下的行为和轨迹预测中展现除了良好的能力
  • Dragon Lake Parking (DLP) 数据集已开放试用和申请,可通过访问数据集主页 https://sites.google.com/berkeley.edu/dlp-dataset 了解详细信息(如无法访问,可尝试备用页面 https://cutt.ly/dlp-notion )



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
华人区“魔鬼”停车场?悉尼华女泊车购物,爱车遭严重撞毁,肇事者不顾而逃!网友群起吐槽​达摩院文档级关系抽取新数据集和五元组抽取新任务预测 2022 年 FIFA 世界杯冠军大概率是荷兰!自制机器学习预测模型技术原理详解MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集多租户场景下的 SaaS 平台,该如何设计?新冠预测模型,到底哪个更“准”?Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文效率加倍,高并发场景下的接口请求合并方案覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集TenrecAdaSeq基础能力 | 30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集东京美食没有最好华人区“魔鬼”停车场?澳华女泊车购物,爱车遭严重撞毁,肇事者不顾而逃!网友群起吐槽文学城往事,值得回味复杂场景下的权限系统该怎么玩?ABAC权限模型帮你搞定它!CORGI-PM:首个中文性别偏见探索和缓解数据集NeurIPS 2022 | 生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别秋天的颜色,秋天的蓝岁月河,岁月歌首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?霸王别姬Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法这是我见过最【精准】的预测模型R-FCN、Mask RCNN、YoLo、SSD、FPN、RetinaNet…你都掌握了吗?一文总结目标识别必备经典模型(二)击败OpenAI!谷歌公布20亿参数通用语音模型,支持100+语种检测翻译WSDM 2023 | 针对长文档场景下的跨语言摘要「凯普林」获过亿元融资,推动激光技术在汽车制造、轨道交通等多领域落地|早起看早期工信部发布重要数据和核心数据识别、数据出境安全管理典型案例活动预告 | “‘数据二十条’背景下的数据要素化”研讨会暨《数据要素化100问:可控可计量与流通交易》新书发布会即将召开i-Weekends | 迎接2023:“新年思维”,让你更好坚持目标为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSENeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别ChatYuan: 业内首个功能型对话开源中文大模型, 人人都可访问和部署!王源重回伯克利上学遭群嘲:万万没想到,伯克利竟成美国大专?南洋理工等开源MOSE:复杂场景下的大型视频目标分割数据集阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。