关于自动驾驶的一些思考和展望
“智能电动汽车”正在颠覆整个汽车行业。“电动化”正在如火如荼地进行之中,而“智能化”尚处在初级阶段。“智能化”的核心,不是把汽车变成另一个移动互联网终端,而是实现真正的自动驾驶。围绕自动驾驶的技术路线,有大量的争议。谁会是未来的成功者呢?未来自动驾驶的格局会是怎样呢?
毫无疑问,自动驾驶一定是未来的发展趋势,因为它满足了人类的底层需求:人性天然是懒惰的。满足人的惰性是推动技术进步的一大动力。除了少数情况,驾驶机动车本身是一项重复性的体力劳动,枯燥、乏味、消耗精力。与其日复一日无聊地驾驶,不如把时间解放出来用来休息、娱乐或学习。并且,大多数人并不擅长驾驶。人只有两只眼睛,并且功能有限,不如摄像头、激光雷达这些设备感知精准,可覆盖360°范围。普通人驾驶的反应时间在0.3秒左右,而自动驾驶的反应时间可以缩小到0.01秒。而且人难以长时间地集中精力,而机器可以做到24小时驾驶,1秒都不分心。在中国,仅2020年就发生各类交通事故244674起,死亡人数为61703人,受伤人数为250723人。高阶自动驾驶如果得以普及,那么交通事故和伤亡人数将大幅下降。
自动驾驶能够创造的商业价值是巨大的。车主使用自动驾驶汽车,相当于雇佣了24小时全职的私人司机。整个社会将节约出来大量时间,人们可以从事更有价值、更有创造力的工作。同时也能挽救更多人的生命,生命的价值是无限的。
自动驾驶具有非常显著的规模效应。对于自动驾驶方案提供商来说,虽然需要付出很大的研发成本,但一旦研发成功,产品本质是一套可以通过空中下载技术(OTA)分发的算法,边际成本为零。同一套算法可以适用于全球各地市场,适应于小汽车、卡车、出租车、公交车等各型车辆,甚至是机器人。消费者剩余巨大的同时边际成本几乎为零,这是非常好的生意模式。
自动驾驶将颠覆很多行业,对社会结构的颠覆也是巨大的。据统计,2020年,中国有1728万货车司机,完成了全社会货运量的74%。如果卡车实现自动驾驶,卡车可以24小时在高速网络中运行,跟车距离也可以大幅度缩短,路网的使用效率将大幅度提升,整个社会的物流成本将大幅下降。同样,滴滴司机、出租车司机、代驾等职业也不再需要,共享出行将更加发达,整个社会维持原有出行规模需要的汽车数量将大幅下降。长距离通勤不再辛苦,人们可以住得更加分散。郊区的房产甚至会更受欢迎。外卖员、快递员等机械性工作都可能被完全替代。整个社会的成本会大幅下降,效率大幅提高,但被颠覆行业的从业者将需要重新寻找新的职业。正如智能手机颠覆了相机、掌上游戏机、PC、收音机、闹钟、手电筒、ATM等等,自动驾驶还将产生一些意想不到的二阶效应,改变农业、零售业、物流业、制造业、房地产、保险、旅游、医疗、养老等各个行业。
正因为前景如此美好,近年来,大量的创业者和资本涌入自动驾驶行业,但曾经有多疯狂,如今有多落寞。谷歌自动驾驶项目的前负责人创办的Aurora,曾经无人驾驶领域市值最高,如今寻求部分或整体将公司出售,股价下跌90%。图森未来传出要将亚太业务以 10 亿美元的价格出售,股价也下跌90%。通用汽车旗下自动驾驶子公司 Cruise巨额亏损。谷歌旗下的Waymo同样持续多年亏损。Intel旗下的 Mobileye 估值仅半年接近腰斩。华为也感受到寒意,对于智能汽车解决方案将减少预算。百度Apollo、小马智行等国内自动驾驶公司同样进展不顺。
原因在于,在技术上实现L4和L5级别的高阶自动驾驶极其困难。哪怕解决了99.99%的问题,剩下的0.01%也非常致命。当下的绝大多数自动驾驶公司,还停留在早期研发阶段,技术无法突破,产品无法量产,就无法在商业上变现,也无法获得规模效应。一旦融资受阻,就有破产的风险。
在整个行业陷入艰难的情况下,有一家公司却鹤立鸡群,在技术进展和商业变现上取得了很大的突破,那就是特斯拉。我们可以在网络上看到,很多北美特斯拉车主发布了特斯拉最新FSD beta测试版本的视频。特斯拉FSD最新版本,已经基本实现了在复杂城区开放道路的自动驾驶,包括识别道路标志,识别红绿灯,避让各类行人、动物、机动车和非机动车,识别复杂的修路路障、锥桶、警示杆,无保护左转,通过标线混乱或没有标线的道路等等。在被前方临停的车辆挡住时,甚至会挪开一点位置观察后继续行驶,或者前方故障车辆挡住路时,像老司机一样压黄线避让后行驶。在能见度低的雨雾天,也能先于人发现前方来车。当然,个别地方比人类司机还稍有逊色。
特斯拉这一年的进化速度极快,特斯拉FSD beta能做到复杂道路基本不需要人工接管。能达到当下这种自动驾驶水平,已经很让人吃惊。特斯拉FSD测试版在美国的价格已经由2015年的2500美元涨价到目前的1.5万美元,购买的人数仍在大幅增长。
可以说,特斯拉的自动驾驶水平已经不断逼近L4。无论是自动驾驶的先驱谷歌的Waymo,还是国内的华为、百度或者蔚小理等造车新势力,没有一家能做到当下特斯拉的水平。谷歌和百度的自动驾驶出租车,也依然限定在特定城市的特定区域。个别公司宣称在城区道路自动驾驶开了多少公里,纯粹是实验层面的测评,而不是大量用户的真实体验,也远远没有量产。那么,特斯拉为什么目前遥遥领先,它到底有什么与众不同?
技术路线之争:纯视觉还是激光雷达
要实现自动驾驶,需要车辆完成“感知、决策、执行”三个步骤。为了增强感知能力,自动驾驶汽车可能需要很多的传感器,如摄像头、毫米波雷达、超声波雷达、激光雷达等。每种传感器都有自己的功能和局限。
传感器的本质是比特流。光学摄像头摄像头比特/秒的信息量,要比毫米波雷达和激光雷达高几个数量级。摄像头技术成熟、价格便宜。不过,摄像头直接获得是二维的图像信息,不能直接识别目标距离。此外,摄像头可能受天气和其他环境条件的影响。
毫米波雷达的原理是依靠反射的电磁波来探测障碍物,受外部条件影响小,具备直接提供三维数据能力,但毫米波雷达由于波长的原因,分辨率有限,且很难识别静止或非金属物体。超声波传感器主要用于短距离物体检测,应用于自动泊车和碰撞警告等场景,缺点在于测距短,需要安装多个,只适用于低速场景,而且超声波的传播速度慢,误差大,可靠性不足。
激光雷达的优点是,能够直接提供目标的三维数据,有极高的角度、距离和速度分辨率,缺点在于工作时受天气和大气影响大,在大雨、浓烟、浓雾等坏天气里,衰减急剧加大。激光雷达因为不具备色彩、文字等完整的环境感知能力,实际并不能作为单一的传感器来使用。此外,激光雷达成本高昂,目前尚未有大规模量产的实际运用经验,技术路线也在演进,可靠性没有得到充分证明。
不同公司,因在技术路线选择和资源禀赋上的差异,主要分为了“多传感器派”和“纯视觉派”,前者又分为“前端融合”和“后端融合”。
以谷歌的Waymo为代表的“多传感器派”占据绝对主流,包括百度Apollo、蔚小理、奔驰等,几乎都认为传感器越多越好,车身布满摄像头、毫米波雷达、超声波雷达和激光雷达,并且需要配合事先绘制的高精地图。
特斯拉却反其道而行之,选择了“纯视觉”的极端方案。之前,特斯拉的自动驾驶传感器包括8个摄像头、也包括了1个前置毫米波雷达,以及车辆周围的超声波传感器。去年,特斯拉宣布将过渡到没有雷达的“Tesla Vision”自动驾驶系统,并开始去掉毫米波雷达。特斯拉近期宣布将去掉全部的超声波雷达。特斯拉的未来自动驾驶方案将仅完全依靠8个摄像头。
如果问多数人特斯拉这么做的原因,大概率只会回答一个原因,就是激光雷达太贵了。所以,国内车企比赛谁的激光雷达更多,似乎就是比特斯拉更加重视用户。国内甚至有车企提出“没有4个激光雷达,请不要说话”。激光雷达的成本将来必然会降低,如果多花一些成本,就能迅速在自动驾驶方面领先,特斯拉没理由不用。其实,传感器成本仅仅只是一个原因,但不是最重要的原因。未来激光雷达成本大幅降低后,特斯拉也不会再采用。综合马斯克和之前自动驾驶负责人Andrej Karpathy的一些观点,特斯拉采用纯摄像头的方案,原因有如下几个方面:
首先,使用多种传感器,将面临不同信息融合的问题。如果各种传感器信息相互矛盾,无论是前段融合还是后端融合,都可能出问题。例如特斯拉之前使用过毫米波雷达,由于分辨率有限,对地面金属反射物有过强的反射,形成对目标的误判,导致出现“幽灵刹车”。
其次,使用超声波雷达、毫米波雷达和激光雷达完全没有必要。雷达的优势只是在直接感知层面得到了更加精确的深度信息,但识别、记忆、预测、决策这些方面的难题一个都绕不过去。视觉本身不完美,但完全有办法解决。特斯拉强在AI算法方面非常强大。例如,摄像头虽然直接提供的是二维图像,但通过神经网络的Transformer算法可将8个摄像头提供的数据综合成三维信息,形成鸟瞰视图“BEV”。BEV后来又升级为更加强大的“占用网络” (Occupancy Network)。过去特斯拉曾经出现过无法识别纯白色卡车而出现的事故,但这一问题早已不复存在。经过算法的改进,尤其是近一两年来的飞速进步,算法已经可以解决纯视觉方案的一些缺点,已经完全不需要雷达就可以得出精确的深度信息。经过算法改造后的三维信息,甚至比激光雷达直接获得的深度信息更准确。特斯拉遵循了奥卡姆剃刀原理:“如无必要,勿增实体”,当8颗摄像头就已经可以完成当前所有感知任务时,就不再增加第9颗,而且要砍掉已经多余的、哪怕极其便宜的超声波雷达。
第三,纯摄像头方案,大幅节约成本。特斯拉使用8个摄像头,预计总成本在1000元人民币以下。激光雷达单只价格在万元人民币以上,马斯克炮轰激光雷达“昂贵、丑陋、没有必要”,不是没有道理。而且,摄像头方案下,也不需要对已经卖出的车辆进行重大的硬件改造,只需要软件的OTA升级就能实现自动驾驶。
此外,由于激光雷达技术尚不成熟,配备激光雷达的车辆迟迟难以大规模量产,不能超大规模积累数据,不能快速进化,自动驾驶能力进展会很缓慢。所以马斯克曾说:“使用激光雷达注定要失败”。
以上是特斯拉在感知方面与Waymo等公司的巨大不同。马斯克从第一性原理出发,认为“人仅仅依靠一双眼睛和大脑开车,而且所有现有道路和标识都是依照人体工学设计的,那么机器也应该可以仅仅依靠视觉和运算驾驶”。人类的视力感知能力不强,且容易分心,但人类大脑却极其强大,通过模糊的识别就能做出正确的决策。特斯拉依靠车辆前后左右不同位置的8个摄像头采集数据,通过强大的人工智能深度学习算法,不断地学习人类司机在不同场景下的驾驶方法,完全可以取得更好的效果。过度的传感器不仅没有必要,反而可能有副作用,而且成本高昂,难以量产。所以,算法才是自动驾驶的灵魂,而且与硬件相比,算法的迭代和进步是没有上限的。
由于多传感器自动驾驶能力进展缓慢,一些公司提出了一些变通的技术方案:例如高精地图、高精定位和车路协同等。这些所谓的“智能交通”技术路线将很快证明是浪费资源的伪命题。当下,不少地方政府花费巨资对道路等基础设施进行改造,试图将自己打造为自动驾驶领先城市。汽车不是芯片,它是全国到处跑的。试想,如果只有有少量城市、部分经过改造的道路才能实现自动驾驶,那还有多大意义呢?高精地图就像拐杖,如果自动驾驶能力不强,高精地图也解决不了太大问题。道路实时情况瞬息万变,高精地图更新一旦不及时,就容易出大问题。况且全国各地都绘制高精地图也成本高昂到不现实。依赖高精地图行驶的车辆,就像“行驶在虚拟铁轨上的列车”,一旦离开铁轨就没有用武之地。
特斯拉的纯摄像头方案,不需要高精地图,也不需要对道路进行任何的改造。一套算法,全世界任何地方都适用。只有这种全球普适性的自动驾驶技术路线才可能是正确的。根据马斯克的说法,今年年底FSD最新版本就可以向全球开放。
数据:自动驾驶时代的石油资源
特斯拉的自动驾驶能力为何超过了谷歌Waymo,难道谷歌没有算法人才吗?谷歌不缺钱,也不缺算法人才,除技术路线的差别外,谷歌还唯独却乏一项关键资源——数据。
当前人工智能领域占据主导的还是深度学习技术,和人脑的逻辑完全不同。人类婴幼儿看了少数几只猫,就能识别各种不同的猫。甚至没见过猫,只见过几笔简单勾勒的猫的画像,婴幼儿就能识别出猫。而深度学习算法则可能需要数十万张各种不同角度、不同品种的猫,才能识别出下一只猫。当下的自动驾驶软件算法还是基于人工智能的深度学习技术,需要大量的数据喂给算法进行训练。
FSD beta 的现有能力,是海量数据滋养出的。数据主要采集于真实世界行驶中的特斯拉车队和虚拟世界中的仿真系统这两个渠道。数百万特斯拉车主真实道路行驶的数据是特斯拉最大的资源,而且这些数据的获得是免费的,甚至是收费的,客户购买特斯拉车和FSD都需要付费。特斯拉2020年交付近50万辆,2021年就交付了93万辆,2023年预计交付200万辆。特斯拉车主的数量每天都在增加。FSD Beta 已迭代到 10.69.2.2 版本,测试人数高达 16 万人,很快将扩大到100万人。根据特斯拉2022 AI day的说法,在 30PB 的数据积累下,每 8 分钟就能训练一个神经网络模型。
相反,根据今年上半年的一份数据,Waymo自动驾驶车队规模大约在800辆左右,百度Apollo车队规模500辆左右。而且这些为数不多的车辆需要公司花钱来造,还需要雇佣安全员坐在驾驶位上。Waymo用来测试的车队数量从特斯拉的千分之一慢慢会掉到万分之一,能够获得的数据量和特斯拉相差好几个数量级。
自动驾驶实现的难点不是普通的简单的道路,而是99.99%以外的长尾情况。只有大量的实际道路驾驶数据,才会遇到大量的复杂情况和罕见状况的“边缘场景”(corner case),才有可能让算法越来越聪明。使用特斯拉FSD的车主发现车是不断在学习进化的,就是这个原因。不少车主遇到车辆处理不太完美的情况时,会一键主动报告给特斯拉,这都是免费的宝贵资源。
如果说燃油车时代最宝贵资源的是石油,电动车时代宝贵的资源是锂镍钴,则自动驾驶时代最宝贵的资源则是海量高质量的数据。
芯片与超级计算
当下成熟的自动驾驶还处在L2阶段,或者ADAS(高级驾驶辅助系统)阶段,如自适应巡航、车道保持、碰撞预警、智能灯光等功能。这个阶段芯片的霸主是以色列公司Mobileye,已被Intel收购。2020年,Mobileye的EyeQ系列芯片出货量高达1930万片,占细分市场份额的70%。但Mobileye与汽车厂商的合作模式是“芯片+视觉感知算法”捆绑销售的“黑盒模式”,主机厂没有主动权。而且,Mobileye的芯片和算法,在驾驶过程中,只是对车辆检测到的情况根据算法中的“条件语句”进行机械的反应,没有根据数据进行主动学习进化的能力,并不是真正的智能化。所以,Mobileye的地位正在被动摇。
2015年,英伟达推出了NVIDIA Drive系列平台。英伟达Orin芯片成为算力最强的芯片。蔚来、理想、小鹏、智己等新势力纷纷搭载英伟达芯片。一些车型的芯片总算力超过了1000TOPS。今年9月份英伟达还发布了一颗算力达到2000TOPS的芯片——雷神Drive Thor。不仅仅提供芯片,英伟达还提供一整套完整的工具链NVIDIA DRIVE,为车企提供算法支持和训练支持。可以说,国内的车企对英伟达的依赖已经很深。
2016 年之前,特斯拉采用Mobileye芯片,后来换到英伟达的芯片。但是,无论是Mobileye还是Nvidia,都无法满足特斯拉对于性能、研发进度、成本、功率方面的要求。2019年4月份,特斯拉自研HW 3.0主控芯片,自研芯片的好处是主控芯片中的神经网络算法和 AI 处理单元可以自主完成,芯片和算法的更好结合将加速自动驾驶的进步。特斯拉还将很快量产HW 4.0版本芯片,基于7nm工艺,性能将是HW 3.0的3倍,预计可以达到10倍于人类驾驶员的驾驶能力。
数百万车辆每日采集的庞大数据的标注和训练,需要大型的服务器或超级计算机。特斯拉还自研了AI训练芯片D1,组成了Dojo超级计算机,“能够利用海量视频数据,做无人监管标注和训练”,摆脱了对英伟达GPU的依赖。这套算法已经让特斯拉能够识别道路上大约60亿种物体。
综上,和Waymo等先行者相比,特斯拉的自动驾驶取得更大突破的原因可以理解为:纯视觉的正确技术路线+庞大真实用户提供的高质量的免费数据+先进的人工智能神经网络算法+匹配自身需求的自研芯片+算力强大且几乎可无限扩展的超级服务器。目前全世界能同时满足这些要素的自动驾驶企业,仅有特斯拉一家。
技术路径的选择非常关键。这不仅是在自动驾驶领域,机器人领域也一样。特斯拉近期公布了人形机器人“Optimus”,动作笨拙,功能有限,貌似让人大失所望。但是,起点并不重要,进步的速度和能达到的终点更重要。有些技术路线,起点高,但上限低,有些则相反。特斯拉机器人和波士顿动力机器人的差别,类似于FSD与Waymo的差别。波士顿动力机器人跑酷视频的确惊艳,但十多年了一直停留在实验室阶段,依然没有量产。一款能够低成本量产,不断积累数据,用人工智能算法不断快速学习迭代的机器人,才更有前途。
中国的自动驾驶
蔚来创始人李斌曾说:“特斯拉有的我都有,我有的它却没有”。从表面看的确如此,蔚来汽车有更多的摄像头、毫米波雷达和激光雷达,内饰、娱乐大屏、各种配置等都要领先于特斯拉。例如,蔚来ET7,仅仅感知硬件就包括1个超远距激光雷达、5个毫米波雷达、12个超声波传感器、14个摄像头。可以说,新能源车的硬件层面,无论是蔚小理还是比亚迪,和特斯拉并没有差距,甚至更好。但自动驾驶方面,差距还非常大。
硬件的配置完全不能代表整体性能。国产车“堆料”很厉害,但各个车企昂贵的激光雷达更多是为了未来自动驾驶进步留下的“冗余”,客户先为此付费,但却很难派上实际用场。国产新势力配置的英伟达芯片算力值,表面上也远高于特斯拉。但如果没有强大的人工智能算法,这些硬件发挥不了全部作用。例如,特斯拉三年前的自研HW3.0芯片峰值算力是144TOPS,并不是太高,但已经完全可以支撑超越人类驾驶能力2-3倍的自动驾驶能力,甚至芯片的算力还没有完全发挥出来。没有好的软件能力,硬件就只是摆设。
国内车企应该认知思考一下,特斯拉为何能做到仅仅通过摄像头感知以简驭繁,感知层面做得越复杂就一定越好吗?例如,小鹏汽车的XPILOT智能驾驶辅助系统,融合了几乎所有的传感器和感知方式:前视三目摄像头+翼子板侧后视摄像头+反光镜前视摄像头+后视摄像头+5个毫米波雷达+4个环视摄像头+12个超声波雷达+高精地图+高精定位+激光雷达。如此复杂的各种感知数据,真的能很好融合吗?仅仅认为特斯拉用纯摄像头方案,是因为雷达贵,是过于简单的想法。特斯拉每一辆车的盈利远超国内这些年年亏损的新势力,它连最便宜的超声波雷达都用不起,都要去掉吗?
此外,国内企业的自动驾驶方面,还有一项弱点,就是芯片过于依赖国外。不久前,英伟达用于云端数据中心AI计算的服务器级别的人工智能芯片A100 和 H100两个型号为被限制出口中国,对国内企业的自动驾驶云端训练带来挑战。目前有地平线等国内企业发布了算力不错的车端芯片,但和英伟达等相比还有较大差距,而且集中在设计领域,制造依然依赖于台积电。
国内企业有一个好消息,那就是特斯拉的高级别自动驾驶能否进入中国还是未知数。当下国内的特斯拉只有L2级别,FSD的最新版本能否进入中国还需要审批。特斯拉能否在中国境内大规模采集和使用数据,有一定的不确定性。这种不确定性给国内企业发展自动驾驶提供了时间窗口。
在我国,车企或者互联网科技公司谁更有希望实现更高级别的自动驾驶?车企,尤其是新能源车企的可能性最大。新能源汽车由于其特性,更加适合自动驾驶。但当下这些企业要么新能源汽车十分热销,为交付问题殚精竭虑,还没开始重视起自动驾驶;要么还停留在错误的技术路线,进展缓慢,且芯片和算法都依赖他人。
华为和百度等都有自动驾驶方案,它们强在软件和算法等能力,但弱点在于数据。他们不是车企,没有大规模的车队。华为、百度与车企结合似乎是好的方案,但利益关系很难摆平,车企不愿意丢掉“灵魂”,沦为代工厂,这种合作往往貌合神离,多会不了了之。
难道自动驾驶系统不能像安卓统治智能手机一样,有一套除特斯拉之外的车企通用的操作系统?二者的逻辑不太一样:安卓系统只需要顶层设计,不需要大规模的数据经过深度学习算法来训练,而自动驾驶却需要。况且,华为、百度的自动驾驶技术路线还是和Waymo类似的,能否取得突破并量产,还有很大的距离。
新能源汽车以及电池的制造方面,我国实现了世界领先地位,体现了我们制造能力方面的优势。但自动驾驶是数据、人工智能、芯片、超级计算、商业模式等各个方面的结合体,更多是软实力,在此方面我们能否实现领先,还需要继续观察。
总之,特斯拉的自动驾驶最近一年的突飞猛进以及展现出的巨大潜力,给我们带来很大的鼓舞和启发。自动驾驶的前景让人充满向往,但不需要后视镜、方向盘、油门、刹车的L5级别的完全自动驾驶,何时能够真正实现还是未知数。人类之所以主宰地球,成为万物之灵,不是感知和运算能力多么强,而是机器难以复制的大脑的抽象、推理决策能力。当前的并不太强的人工智能底层技术,能够在驾驶领域实现甚至超过人脑能达到驾驶能力吗?
自动驾驶的未来未必会一帆风顺,作为汽车驾驶者,我们绝对不能对当下的技术过于信任,否则一个小的bug就可能付出巨大的代价。但毫无疑问,这个世界正在被科技改变。完全自动驾驶将给人类社会的经济生活带来重大影响。而更难实现的智能人形机器人如果成功,将重塑整个人类社会,电影《I robot》中描绘的场景可能成为现实。
版权声明:部分文章推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。
微信扫码关注该文公众号作者