多年之后,中国汽车行业会回想起智能驾驶演示视频漫天飞舞的那些日子。今年,当城市高阶智驾的竞赛愈演愈烈,发布自家车辆丢开方向盘“攻占”各个城市的视频,已经成为车企们抢占用户心智的重要竞争手段。最新的参赛选手是极越。10月17日,一辆极越01自行穿越上海城区,全程无人接管的视频在网上流传开来。能在上海跑出类似效果的汽车品牌不算多,但一只手也数不过来。但是,与其他人不同的是,极越的城区高阶智驾演示,是国内唯一一个去掉激光雷达、基于纯视觉方案的演示。极越不依赖激光雷达的智驾方案和国内其他汽车品牌拉开了差别,同时也是一种炫技:Less is more。同样能力下,智能汽车依靠的硬件越少,软件实力必然越高。此前,仅有特斯拉在量产车上部署纯视觉算法并借其在北美实现了城市高阶智驾(FSD)。而现在,在纯视觉路线上,挑战者与守成者,围绕技术与市场的较量即将打响。同时,极越也将用不依赖激光雷达的、更低成本的城市高阶智驾方案,搅动高阶智能驾驶潮水曾经翻涌的方向。质疑特斯拉:你有视觉 我有Lidar
2021年年初,马斯克发起裁决,考虑要不要砍掉特斯拉车型上的毫米波雷达,转入纯视觉自动驾驶路线:“我们现在走到了十字路口,要么让产线停工,要么让(为雷达设计的)凤凰系统上线,要么放弃(毫米波)雷达。[1]”作出这个裁决的原因,一部分是毫米波雷达芯片缺货,另一部分则是他信仰的“第一性原理”——既然人类是靠眼睛开车,而道路结构和标志也是为人眼设计,作为“汽车之眼”的摄像头理论上也可以实现同样的效果。科普一下,毫米波雷达的优点在于能测距和测速,且对恶劣环境有很强适应性,价格也便宜实在,缺点在于分辨率低,无法测高,噪点大,分不清物体的形状和类别,这和能获取大量二维特征信息,但对能见度和算法能力要求高的摄像头形成了鲜明的互补关系。因此,放弃雷达这个乍一听让人心潮澎湃的想法,却引发了高管们之间激烈的争论,包括副总裁Jerome Guillien在内的工程师都在反复强调:“雷达可以探测到摄像头和人眼看不到的物体”[1]。但马斯克无动于衷,反而撂下一句狠话:“你不干,我找别人干。”这一干的结果是,当年5月,特斯拉出厂车型上的毫米波雷达被干掉(虽然现在出于技术验证目的将更先进的4D毫米波雷达装回了Model X/S),Jerome在特斯拉的工作被干掉。虽然马斯克是暴君型CEO,但他其实并没有针对Jerome,主要是对毫米波雷达有意见。随着特斯拉摄像头的视觉感知能力突飞猛进,马斯克发现毫米波雷达“信噪比太低”(信息与噪声的比例),对感知系统产生了“干扰”和“污染”,进而会误导其他传感器,增加意外出现的风险,比如“幽灵刹车”。毫米波雷达探测结果与摄像头探测结果为了减少误报,马斯克选择相信摄像头,向视觉感知系统投喂了大量数据,表明它们通过训练出的全新神经网络获得了接近甚至超越毫米波雷达的测速测距能力。特斯拉本以为这样会减少由于信息干扰产生的幽灵刹车,结果恰恰相反。当年越来越多的特斯拉车主发现,在取消毫米波雷达之后,幽灵刹车的现象不减反增,投诉量从Q3开始激增,以至于美国公路交通安全管理局(NHTSA)都看不下去了,着手调查此事,特斯拉也在2021年11月召回了1.1万辆车,原因是FSD存在bug。同一时期,《消费者报告》宣布暂停将 2021 款 Model 3 列为「推荐」,美国高速公路安全保险协会(IIHS)取消了 Model 3 曾经Top Safety Pick+的最高安全评级,甚至有软件安全专家在《纽约时报》上撰文,批评特斯拉的自动驾驶系统是:“《财富》世界500强公司有史以来卖过的最差的软件。[2]”目睹了特斯拉All in纯视觉的惨烈探索,大洋彼岸的车企们也坚定了道路自信,在多传感器融合、大力出奇迹的方案上越走越远,掀起一场智驾感知硬件的“军备竞赛”。这种差异在激光雷达的使用上体现得最为明显,马斯克一向对其嗤之以鼻,认为它是“拐杖”和“鸡肋”,但国内新势力却对它情有独钟:小鹏P5率先搭载了激光雷达,蔚来NT2.0平台标配激光雷达,极越也选择了视觉与激光雷达两条腿走路,还曾为激光雷达的布置方案与理想在线battle。激光雷达曾是更强自动驾驶能力的象征
相比于毫米波雷达,虽然激光雷达上车的时间不长,但它的探测距离远,测量精度更高,可以直接输出3D信息,无需复杂的算法和长时间的神经网络训练,也能描绘障碍物的立体轮廓,不至于出现把公交车上的董明珠识别为行人的情况,也不会径直撞上一辆侧翻的货车,能为车辆行驶提供更多的安全冗余。当车企们开卷城市NoA功能,进入环境高度复杂的城市场景时,能够直接进行三维重建的激光雷达更是带给了车企与消费者更多安全感。目前,国内已经交付的带城市NoA功能的车型,悉数搭载了激光雷达。由此,大洋两岸在自动驾驶感知路线的选择上似乎分道扬镳,也顺便催生了相关供应链的冰与火——美国的激光雷达公司奄奄一息,中国的激光雷达企业蒸蒸日上。理解特斯拉:追赶视觉升维
从今天国内的城市NoA开城进度来看,毫无疑问的是,激光雷达的量产应用,加速了国内车企高阶智驾的商用步伐。但智能电动汽车竞赛的残酷在于,车企要同时卷功能的持续领先、技术的快速迭代以及成本的总体可控。2021年7月,在第一届AI DAY上,特斯拉正式推出了BEV(鸟瞰图)+Transformer的技术方案,进一步提升了摄像头的测距、测速以及适应一些极端场景的能力(比如出隧道),虽然没有彻底打消人们对纯视觉的疑虑,但证实了纯视觉方案的技术潜力,也让市场的心态从之前一边倒地否定变成了拭目以待。而到2023年,国内智能汽车各种“冠军版”车型相继上市,产品换代反而降价的操作持续上演。席卷行业的价格战,让车企降低产品端硬件成本的需求迫在眉睫。一些价格不便宜的硬件,价值开始受到重新审视,激光雷达是其中之一。今年,在一些拥有激光雷达和高阶智驾功能的车型上,人们发现激光雷达发挥的作用并没有想象中重大。比如有车型将广告牌上的人像识别为真人从而急刹,在正常情况下,激光雷达理应发挥三维重建的长处,告知感知系统那不太可能是个人。之所以出现这种情况,问题出在激光雷达的固有特性和系统算法设计上。激光雷达通过发射红外激光探测回波工作,这种类似于“触觉”的原理决定了其获取几何信息的能力强,可以直接输出三维点云。但和真实世界相比,激光雷达进行三维重建的结果比较仍然比较稀疏,对语义信息的理解远不如视觉。同时,在此前的多传感器融合算法中,视觉与激光雷达进行的是目标融合(也称后融合,即视觉和激光雷达分别判别物体种类,再对双方结果加权采信),两种长处不一致的传感器能相互配合,但有时也坚持己见,造成感知结果“打架”,带来置信问题。理想化的解决方式,是将激光雷达与摄像头获取的原始信息先进行融合(又称前融合),再输出感知结果,两者相当于用一个大脑思考,可以极大提高感知精度。然而,由于激光雷达与摄像头的数据形式不同(点云VS图像)、工作频率不同(10Hz VS 36Hz),视场范围不同(约25° VS 约68°),对两者信息进行时空同步一直是业界的圣杯级难题。退而求其次的选择,是从激光雷达点云和图像中分别提取特征,再进行特征级融合,据此判定感知结果。相比后融合,特征级融合相当于激光雷达与摄像头“商量着来”,也能拉高感知效果的天花板。但直到现在,大多数车企也依然不具备在量产车型上,将激光雷达与相机进行特征级融合的算法能力,激光雷达的潜力事实上并未得到充分发挥。由于激光雷达成本高、与视觉数据级融合算法的门槛高,在部分车企看来,眼下激光雷达并不便宜,也不算好用, 在量产车上应用的价值更多体现为,花钱多买了一重安全冗余。在经历了上车的尝试后,他们更形象地理解了马斯克为何将激光雷达称为拐杖,转而开始思考如何去掉拐杖。就在车企开始重估激光雷达的价值之时,纯视觉路线悄然开始打造激光雷达的平替。2022年CVPR(Conference on Computer Vision and Pattern Recognition,计算机视觉学术顶会)上,特斯拉提出了Occupancy Network(占用网络)。它引入了“体素”这一概念:在二维平面图像上,基本单元是像素;而在三维空间总中,基本单元就是体素。在占用网络中,神经网络会从摄像头获取的数据中提取特征,将其“升维”并切分为一个个三维格栅(即体素),再结合特征判定每一个体素被占用的概率和动静状态。相比于此前的视觉算法,占用网络可以进一步得到物体的体积信息。这使视觉感知无需具体识别物体是什么,根据其体积、运动状态也能判别它是否是障碍物,纯视觉算法由此走出了“识别才能感知”的白名单困境,拥有更强的泛化能力。比如各种工程车辆,由于形状不规则、常常有脱离车身主体的部件存在(如吊车挂钩),此前视觉算法常常会出现误检、漏检,占用网络则能更好地应对。占用网络较好地用体素表达了右侧吊车伸出车体外的支撑腿
占用网络被引入自动驾驶领域后,让摄像头将语义信息与立体几何信息统一起来,三维感知能力得到史诗级提升,这与人眼更加相似——同样,人类在开车观察的时候,既会判别物体的种类、边缘,又会判断其大致距离、体积,两种信息相互配合,为人类作出恰当的驾驶操作打下了坚实的基础。换句话说,占用网络的引入,确实能使智能驾驶更接近人类。并且,摄像头获取的信息是稠密的,这给纯视觉算法的进化留下了一座富矿,而目前激光雷达获取的信息相对稀疏,这决定了充分挖掘其潜力的难度更大。纯视觉由此成为自动驾驶感知算法的显学,论文数量在2022年后迎来井喷。一批车企与供应商也开始严肃思考,以占用网络加持的纯视觉方案替代激光雷达,一方面可以降低车辆的BOM成本,在市场竞争中赢得更多腾挪空间;另一方面也能精简算法与研发团队架构,集中有生力量加速开发、快速迭代。此前在机器人领域,便在使用占用格栅、体素表达三维世界,帮助机器人进行更好的路径规划与控制。只是机器人通常低速运动,对算法的实时性、感知精度要求可以放低,但高速运动的车辆,则有严格要求。这也意味着,具备纯视觉、占用网络的论文能力,和具备将算法部署至车辆上的工程能力,完全是两码事——在Ocuupancy Network公开后的一年半时间中,并没有其他车企量产纯视觉占用网络。超越特斯拉?东方战场的阻击
10月17日,展示纯视觉方案在上海实现城市NoA的同时,极越也预告了占用网络将在第四季度量产的消息。届时,极越在纯视觉感知算法上将与特斯拉同处领先梯队。甚至于,由于特斯拉的FSD在国内尚处测试阶段,极越还可能领先前者一步在国内交付城市NoA。这是一个出乎意料的“后起之秀”——行业对占用网络的开发兴起之时,极越才成立满一年。为何一个新品牌,能在占用网络的量产进度上后发先至?这与极越管理团队的判断分不开。有业内人士算过一笔账,走纯视觉路线实际上比使用激光雷达更贵、更难——虽然在终端消费者要付出的硬件成本低了,但厂家在研发端付出的算法开发成本、云端算力成本会成倍提升。但极越认为,纯视觉路线的上限更高。及早将消费者购置成本更低的纯视觉方案跑通,向更广泛的用户交付保证体验与安全的城市NoA,才能形成更高效的数据闭环体系,在智驾技术成长的道路上越跑越快。对纯视觉路线的重视,带来的是大量资源倾斜。作为百度Apollo深度赋能的汽车品牌,极越选择了与百度合作开发纯视觉方案和占用网络算法,也由此受益于前者在自动驾驶领域长年积累的体系能力。虽然百度Apollo声名在外的Robotaxi都顶着激光雷达,但他们在纯视觉路线上的探索,比想象中更早一些。2019年CVPR上,百度公开了依靠纯视觉感知实现L4自动驾驶的技术方案Apollo Lite。在随后数年中,这套低成本方案被搬上Robotaxi测试车,在多地城市道路上顺利运行,形成了纯视觉路线宝贵的技术积累。Apollo Lite项目的负责人,百度智能驾驶事业群组技术委员会主席王亮,在2021年极越成立后也与极越CEO 夏一平搭伴,协助极越智能驾驶的联合开发。由于这些工作,当纯视觉路线迎来BEV+Transformer、Occpancy Network两次重大进阶时,极越的智驾开发团队第一时间意识到它们的价值,立即启动了感知算法的重构——训练更大的模型,对视觉投以更高的信任。不过,意识到纯视觉的价值,和能在量产车上发挥纯视觉的价值之间,存在巨大的鸿沟。极越展示的占用网络,要落地到量产上,必须解决一些AI领域经典的难题:算力,数据。众所周知,相机的像素越高,对ISP等计算单元的算力需求就越高;同样,占用网络输出的体素越密集,也会消耗更多芯片算力,而高算力消耗往往会影响智驾系统的实时性。此时,一个工程经验丰富的团队,更有能力部署轻量化的占用网络,兼顾性能与算力消耗。论自动驾驶领域经验丰富,极越与同其联手的百度显然榜上有名。而作为一种新的神经网络算法,占用网络需要大量的数据训练才能表现出足够高的感知精度。但其训练并不能沿用此前的二维数据,而要使用三维真值数据。三维真值是高度接近三维世界真实情况的数据表达,它是占用网络训练的参考答案,但在算法开发前期难以用摄像头直接获取。用激光雷达获取真值,特斯拉也干过
此时,百度的Robotaxi车队,以及极越此前在验证车上部署的激光雷达发挥了作用。搭载激光雷达的车辆,自带三维重建能力,在测试过程中自动化地收集了大量三维真值。这些真值不仅能直接用于占用网络的训练,也进一步通过仿真系统生成了更多合成数据。由此,激光雷达的存在反而提供了数据养料,进一步加速了纯视觉算法的开发。用两年时间走完了其他企业三年甚至五年才能走完的路时,极越有了底气在智驾技术上叫板特斯拉。不过,消费者最终只会为体验买单,而特斯拉FSD入华的时间也越来越近。不少车企战战兢兢,因为FSD在北美表现出色,而它们甚至还没有开始交付高速NoA。但夏一平对极越与特斯拉的对垒充满了信心。他背后是一支深耕国内,在中国进行了多年自动驾驶开发的团队,对中国的道路环境与规则有更深的理解,也有完备的数据、地图体系。在这个体系支持下,极越01将做到城市NoA功能标配、“上市即交付”。特斯拉的FSD,不仅要等等,还得加钱。显然,在全球最大的智能电动汽车市场,本土力量正在给特斯拉上强度。在刚刚发布的第三季度财报中,特斯拉营收增速下滑,毛利率创下近年新低,市值一天就蒸发了上百亿美元。在电话会议上,马斯克对在中国市场遭受的阻击避而不谈。这会是特斯拉“过去一年最差财季,未来一年最好财季”吗?极越们会给出答案。
参考资料
[2] New York Times ad warns against Tesla’s “Full Self-Driving”,TechCrunch