Redian新闻
>
TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测

TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测

公众号新闻

机器之心最新一期线上分享邀请到了清华大学智能视觉实验室组博士生郑文钊,为大家分享他们近期工作 TPVFormer。

当前以视觉为中心的自动驾驶感知主要集中于三维目标检测,然而预测出的三维框描述物体过于粗糙,忽略了物体的几何形状;且仅完成了对前景物体的预测,而忽略了背景环境信息。受此启发,我们主要研究了基于视觉的三维语义占有预测这一新型任务,其输入为环视图片,目标通过对每个体素进行语义标签的预测,生成密集预测的环境表示,使环境感知更加可靠、稳定。本次分享主要介绍纯视觉三维语义占有预测的最新进展,基于 CVPR 2023 的最新论文 Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction。

目前的纯视觉自动驾驶感知方法广泛采用鸟瞰图 (BEV) 表示来描述 3D 场景。尽管它比体素(Voxel)表示效率更高,但单独的 BEV 平面难以描述场景的细粒度 3D 结构,难以很好地完成三维语义占有预测这个任务。针对这个问题,论文提出了一种新型的三维空间表示方法 Tri-Perspective View (TPV),其在 BEV 平面的基础上新增了两个平面,从而可以描述整个三维场景的细粒度结构。为了将图像特征提升到 TPV 空间,我们进一步提出了 TPVFormer 来有效地获得 TPV 特征。

以环视图像作为输入,TPVFormer 仅使用稀疏 LiDAR 语义标签进行训练,但可以有效地预测空间中所有体素的语义占有。此外,TPVFormer 也是首个仅使用图像输入在 nuScenes LiDAR Segmentation 上取得良好性能的方法。代码已经开源 GitHub 仓库,后续将支持更多的三维语义占有预测模型、方法和数据。

分享主题:TPVFormer:面向自动驾驶场景的纯视觉三维语义占有预测

分享嘉宾:郑文钊,清华大学 IVG 组博士生,师从周杰教授和鲁继文副教授,研究方向是计算机视觉和机器学习,主要兴趣包括自动驾驶感知、相似性度量学习和可解释性人工智能,在 TPAMI、CVPR、ICLR 等顶刊及顶会上发表相关论文 17 篇。

分享摘要首先介绍纯视觉三维语义占有预测这个任务的背景及意义,接下来介绍所提出的 Tri-Perspective View(TPV)三维场景表示方法,最后是基于该场景表示方法的 TPVFormer 网络结构以及其在三维语义占有、点云分割、场景语义补全任务上的应用。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/tpvformer

2)论文链接:

https://arxiv.org/abs/2302.07817v1

3)代码仓库:

https://github.com/wzzheng/TPVFormer

https://github.com/wzzheng/OpenOcc

4)项目主页:

https://wzzheng.net/TPVFormer/


加群看直播
直播间关注机器之心机动组视频号,北京时间 4 月 4 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「TPVFormer」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【限时早鸟价】大佬都开始用三维软件做二维了?来学学这些融合二三维的技巧强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述【渔家傲-家父百岁寿诞寄怀】ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建乾六:不待其穷MOAT项目原作解读:强大的可扩展视觉骨干网络花叶与根TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型IEEE标准协会网络研讨会 | 我们是否准备好了迎接自动驾驶和人工驾驶车辆的混合交通?威孚仕VFS Global成都芬兰签证申请中心将恢复运营!威孚仕VFS Global上海冰岛签证申请中心将全新启动!售价3300美元的自动驾驶婴儿车:自动前行、智能制动,还带哄睡最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数ELITE项目原作解读:基于扩散模型的快速定制化图像生成《洗脑》是以谋取私利为目的的ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架AudioLDM一作解读:文本生成高质量音频,单GPU即可福特研究自动驾驶并申请专利!用来对付车主:不还款自动开回4S店自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿未来十年,我们需要什么样的自动驾驶芯片? |中国自动驾驶十人专访颠覆大规模三维实景的元宇宙应用,「优立科技」获近亿元Pre-B轮投资|36氪首发JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题座舱交互/自动驾驶开发/智能驾驶辅助训练...AIGC和大模型席卷智能网联汽车威孚仕VFS Global广州部分签证申请中心搬迁新址!威孚仕VFS Global武汉意大利签证申请中心将恢复运营!Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台SparK项目原作解读:卷积模型的首个BERT预训练让机器更加类人:以视网膜为灵感,自动驾驶车有望预测运动轨迹VFS Global深圳奥地利签证申请中心恢复运营!VFS Global成都、深圳匈牙利签证申请中心将恢复运营!VFS Global广州、重庆芬兰签证申请中心将恢复运营!VFS Global武汉希腊签证申请中心重新启动!UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型ICLR 2023 | DIFFormer: 扩散过程启发的Transformer军旅故事原创系列(36)纯朴的炮长MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。