Redian新闻
>
给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源

给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

只需“100K大小的外挂”,就能让自动驾驶AI识别“物体运动状态”的能力大幅上升!

这是一项来自香港大学计算机视觉与机器智能实验室(CVMI Lab)和TCL AI Lab的新研究,目前论文已被CVPR 2023收录。

研究提出了一种叫做MarS3D的轻量级模型,给原本只能识别物体“是什么”的语义分割模型用上后,就能让它们进一步学会识别这些物体“是否在动”。

而且是任意主流模型即插即用,几乎不需要额外的计算量(推理时间只增加不到0.03秒),目前已开源

要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于3D点云语义分割模型的准确率和效率。

如果想提升模型识别“运动物体”的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。

相比之下,MarS3D参数量只有约100K大小,却能将主流点云分割模型的性能提升近5%

这究竟是怎么做到的?

100K参数让模型学会识别“运动”物体

首先要了解一下3D点云的两种语义分割任务,单扫描(single-scan)和多扫描(multi-scan)

这两种方法的核心差异,在于能否区分物体的运动状态

单扫描任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车:

多扫描任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。

换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体是否在运动。如汽车标签扩展成“运动的车”和“不动的车”,以及行人扩展成“运动的行人”和“不动的行人”:

目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。

虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让AI掌握识别物体运动状态的能力,但存在两个问题:

一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是“争分夺秒”的自动驾驶系统无法接受的。

为了解决这两个问题,让语义分割模型又快又好地掌握识别“运动物体”的方法,MarS3D横空出世。

即使之前模型只能做单扫描语义分割,给它加个MarS3D后,不仅能大幅提升多扫描语义分割能力,区分物体“是否在运动”,效果还比其他多扫描方法更好。

所以,MarS3D的核心思路是什么?

具体来说,模型设计了一个基于2D CNN网络的分支BEV Branch,这个模型能提取点云数据转换的BEV(Bird’s Eye View)表征,即自上而下的鸟瞰视角。

之所以选用BEV,主要有两个原因。

一方面,目前的运动物体基本都是在地上跑(即使在空中飞,也几乎不存在垂直上升的情况),也就是说,几乎所有的运动都在水平面上有位移,因此它能很好地反映物体在绝大部分场景中的运动状态;

另一方面,BEV相比点云数据量更小,还能通过参考帧和特征图相减,降低点云稀疏性带来表征不稳定的问题,即同样静态区域的表征近似,含有动态物体区域的表征距离更远。此外,多尺寸卷积对表征抽取特征图,以保证模型对不同运动速度的物体都有很强感知力。

随后,将这个分支提取的运动状态信息特征、和其他被时序嵌入向量增强的单扫描任务模型分支3D Branch提取的语义信息特征结合起来,进行特征融合,最终实现语义分割。

那么,这样实现的3D点云语义分割,效果究竟怎么样?

几十毫秒计算,分割性能提升近5%

相比和其他输入如RGB图像进行结合,论文重点测试了模型针对纯点云输入的分割效果。

从下表可见,对于SemanticKITTI数据集,在目前主流的单扫描点云分割模型如SPVCNN、SparseConv和MinkUNet上,MarS3D在只给模型增加0.1M的情况下(参数量增加不到0.5%),将性能(mIoU)分别提升了4.96%、5.65%和6.24%。

同时,计算时间(延迟)只增加了19ms、14ms和28ms。

5%对于模型分割性能提升有多显著?下图是在两个扫描场景中,模型增加MarS3D前和增加后的效果对比,其中左图是增加前,中间是增加后,右边是真实值:

显然,增加MarS3D后模型识别物体的效果要更好。

直接将分割效果和真实值对比,可见增加MarS3D后的“错误值”,比增加前要低不少:

整个推理过程,只需要一块英伟达GeForce RTX 3090 GPU就能搞定。

对MarS3D感兴趣的小伙伴们,可以去试试了~

项目地址:
https://github.com/CVMI-Lab/MarS3D

论文地址:
https://arxiv.org/abs/2307.09316

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

8月9日,我们将在北京举办「量子位AIGC行业沙龙——AIGC时代的算力基石」,欢迎感兴趣的企业联系~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《一路风景英伟达挖走小鹏自动驾驶“第一功臣”,清华大牛美国博士BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?刚刚!时隔三年,澳航宣布恢复墨尔本——香港直飞航班!预计到明年三月,澳航国际运力将显著提升!土拍不拼马甲,开始拼“外挂”了阿里云开源通义千问,曲阜师大室温超导实验未得出零电阻,特斯拉或年底完全自动驾驶,印度限制进口笔记本平板,这就是今天的其他大新闻!ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源机构点评汇总:数据要素提升运营商盈利🔴🟢🟡求分享做酱肉包的馅的方法&分享个苹果手机功能以表感谢。《心如故》&《金风玉露》CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例太平洋吹来微微的风春夏轮迴太急匆 渔歌子ExpertLLaMA:超越Vicuna,通过角色扮演增强指令,显著提升回答质量苹果公布第三财季业绩:营收818亿美元;马斯克:有望年底实现完全自动驾驶;阿里云宣布通义千问开源;星巴克中国回应被瑞幸反超...成为“一专多能”大医生,这个“外挂”提供助力无题拆解10季《老友记》,每天小刷10分钟,英语水平显著提升北京大学研究显示,中国5G的发展显著提高了老年人健康水平《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了牙疼&心疼微信“外挂”,我悄悄发,你偷偷用!Nature封面:AI提高自动驾驶夜视能力,检测黑夜、雾天场景和白天一样大二孩子妈妈回头看:明白了这些,能显著降低育儿焦虑650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目iPhone 15系列电池容量或显著提升/ChatGPT 「联网模式」暂时下线/「82 年的雪碧」开售Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP表现为绝缘体:德国科学家称合成出无杂质LK-99单晶;紧急避孕药与抗炎药一起服用,或能显著提高避孕效果 | 环球科学要闻研究发现:这类常见食物和饮料,能显著对抗年龄衰老,尤其是大脑功能!阿里云开源「通义千问」大模型;马斯克:特斯拉有望年底实现完全自动驾驶;妙鸭相机上线 B 端工作站 | 极客早知道ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测小鹏要替滴滴造车,十几万就能自动驾驶的时代要来了。墨西哥议会展出疑似“外星生物”,活动发起人曾多次涉嫌伪造“外星人遗骸” | 环球科学要闻冠情重创难收口,采桑子BELLE-7B-1M逻辑推理超预期?10B量级开源中文对话LLM,谁最「懂」逻辑推理?自动驾驶“卖水人”,知行科技的想象空间有多大?《My Love》 by 豆&豆 周末愉快!DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。