自动驾驶，别让数据卡了脖子

2023-04-06 15:04

题图 | 视觉中国

时至今日，中国汽车产业的强大已经“溢于言表”。

就拿已经过去的2022年来说，全年总产量达到2700万辆，直接占到全球总量的31.8%；出口量更是首次突破了300万辆，刷新到了全球第二；在全球汽车新能源化浪潮中，已经实现了25.6%的市占比。

绚丽的数字背后，是整体汽车产业的越来越成熟，各个自主车企都进入了品牌价值的快速上升期，逐渐从过去的“活下来”往继续“做大做强”发展。

也正是因为中长期持续发展的视角，让许多车企提前投入到了汽车行业的下一场战役——“以量产车推进技术能力成长，抢先在将来的自动驾驶时代拔得头筹”。

在自动驾驶的前期探索中，主流路线一直是跃进式的。最典型的例子是Waymo，从一开始就大量使用昂贵的激光雷达，并且尝试直接去掉司机、彻底实现无人驾驶。在行业中辛苦熬了十多年之后，好不容易开始将过去的科研成果落地为Robotaxi业务，但好几年了还是在个别城市试点。

与Waymo形成鲜明对比的，是以量产车“持续迭代”模式推动、“渐进式”趋近自动驾驶终极目标的造车新势力们。从L2/L3能力起步的它们不仅通过高级辅助驾驶功能（ADAS）实现了产品力和利润的提升，同时还能持续收集现实驾驶数据，在良好的商业循环下继续发展自己的技术。

在自动驾驶这场短期内仍无望普及的长跑中，更有耐力、更符合商业诉求的第二种发展模式，正在成为中国汽车产业的大势所趋。

数据相关的挑战，自然而然地摆到了车企面前。

从2020年开始，中国市场乘用车的高级辅助驾驶（ADAS）搭载率一直都在快速爬升，根据相关统计，2022年上半年ADAS前装搭载率已经达到了26.64%，L2级智能辅助驾驶同比增长接近70%，相应的汽车价位已经进一步渗透到15万左右。

乘用车市场L2/L3前装率快速提升，恰恰说明了“拼制造拼硬件”是中国汽车产业最不怕的课题。真正困扰中国汽车产业的，来自汽车实体之外，至关重要的一个环节就是——数据，尤其是怎么把数据跑起来。

作为自动驾驶走向现实的关键，深度学习的基础原理，就是通过收集海量相关数据给计算机，并且进行特征分析、训练、验证，最终“训练”出一个高度精准的AI算法，用于实时感知不断变化的路况，通过推理计算给出可靠的驾驶指令。

换句话说：计算机只会它“学”过的，遇上没“学”过的题目，输出的驾驶指令可靠性就会迅速下降。无论是“跃进派”还是“渐进派”车企，都必须对数据进行布局，具体包括数据的收集、挖掘、训练等一系列环节。

过去在相对基础的L2自动驾驶产品中，车企往往会直接找外部采购mobileye一类的整体解决方案。但随着L3/L4技术难度的增大（市场上并没有很多公司做出成熟的解决方案，形成良性竞争），以及消费者对于L3/L4自动驾驶的看重，车企之间的激烈竞争已经让他们“不得不”自己下场，以实现比友商更快、更好的自动驾驶能力增长。

严峻的IT能力挑战，给包括造车新势力在内的所有汽车厂商，都提出了一道难题。

“数据”为何能难倒大车企？

自动驾驶“数据”听起来很简单，实际上涵盖了一系列难点各异的处理环节。例如数据的采集、脱敏、标注、仿真等等。

先说采集，根据汽车工程师协会（SAE）的相关要求，L2-L3通常要求测试车辆累计收集20万至100万公里的真实路测数据，L4至少需要200万公里的数据。

以一个典型的L2级自动驾驶项目为例，如果以75公里每小时的平均速度（这个速度已经非常快了）收集20万公里里程，将生成近3000小时的数据，单个传感器需要大约4PB（1PB=1024TB）的存储空间，所有传感器加在一起将生成约20PB的原始数据，2万多块1TB的硬盘才装得下。而这还只是基础要求，随着车企量产产品的不断运行，累积的数据量只会越来越多。

如此海量的数据不光是存储的问题，还有传输和归档管理的问题。车企必须将存在于海量的实际用户车辆当中的数据，合规地收集起来，高效地通过网络传输到大型数据中心。在数据到达数据中心之后，还需要进行分类归档，不仅要保证数据存储的合理性，同时还要保证后续数据的存取足够高效。

紧接着是数据的脱敏，早在2022年8月中汽协就对汽车数据的脱敏提出了要求，包括车内（人脸）和车外（人脸+车牌）的图像数据都需要脱敏。但汽车收集的数据往往是动态的视频，所以同样需要人工智能的能力来对敏感数据进行追踪，进行相应的擦除、涂抹等操作。

然后是数据的标注，在给计算机投喂数据的过程中，并不是乱投一气，而是要在人类工程师的监督下，有规划地组织计算机学习，也就是提前由人类和程序对数据进行“标注”。寻常的驾驶数据可以归类之后让计算机自己学习，特别有价值的例如特殊天气下道路标志的识别、特殊的红绿灯识别、不寻常的障碍物等，则由人类工程师重点投喂，并且进行针对性的训练。如果“标注”的效率太低，前面数据收集的过程再快，也会被卡在这个环节上。

再往后，是关键的AI处理能力，自动驾驶PB级别的海量数据需要超大型的GPU加速器阵列才可以处理，在计算的过程中，还必须实现高效、高性价比。

在计算出结果之后，对结果的仿真验证也十分关键。通过在数字世界中的仿真，可以把大量只能在现实世界进行的自动驾驶开发和测试成本，转化为GPU的物料成本和工程师的知识经验成本，变相为车企节约了大量的成本。

最后是车企们对于自主可控的诉求，早在两年前，上汽董事长就曾表示过“上汽要把灵魂（自动驾驶）掌握在自己手中”。这种说法虽然听起来比较强势，但对于在汽车产业中投入最多、产值最高、产业金字塔地位最高的车企来说，将主动权掌握在自己手中的确是一个合理的诉求。

车企们再明显不过的需求，很快吸引来了众多的“外援”。

双向奔赴的汽车产业和IT产业

能帮到中国汽车产业的，只有中国的IT产业龙头们和紧随而来的生态。

车企一系列数据需求，尤其是数据的传输、存储、大规模处理，以及在数据需求背后对效率和性价比的需求，已经为汽车产业指明了最关键的合作伙伴：云厂商。

后者拥有遍布中国乃至全球的数据中心和网络节点、超大规模的数据存储能力、以及云端大规模的AI计算处理集群，就是车企解决一系列数据难题的最好倚仗。

车企与云厂商合作的深化，最终转化为了中国汽车云市场的快速增长，在这个市场中，中国本地的云厂商反而比国外云厂商更领先。

按照国际权威分析机构沙利文2022年的调查，华为等国内云厂商在这个市场中已经处于领先地位。其中，华为云在细分市场基本处于龙头：在自动驾驶汽车云拿下26.9%的市场份额，车路协同汽车云则拿下了23.6%。

国内的自主车企们也在这个过程中受益甚多，其中一个例子是比亚迪。作为国内领先的新能源汽车厂商，比亚迪拥有超过250万辆产品行驶在路上，这些产品均需要通过OTA（远程无线升级）来保持汽车软硬件系统的更新。如此数量庞大的用户，通过华为云强大的网络分发能力和资源调用能力，能做到在OTA分发过程中不“卡顿”，在分发完之后迅速减少云端资源的使用，降低费用成本。

只不过，再强大的通信和云能力显然不足以解决车企们的所有需求。回到自动驾驶这个远期挑战中，不同车企就有着不同的自动驾驶硬件方案、也有着不同自动驾驶发展思考，在自动驾驶的云服务上并没有像互联网那么统一的需求。

同时，车企的软件实力也比较有限，云厂商主动去服务每一家车企的每一个需求，只能换来最糟糕的结果，单个能力不强且解决方案无法在不同车企之间互相套用。

专攻自动驾驶的专业软件公司在这个过程中就体现了他们的价值。

在云厂商完成了数据的加密、上传、存储之后，这些专业软件公司就可以针对自动驾驶数据处理过程中的一个、几个甚至整个环节，结合自己的技术积累，基于云厂商输出的基础能力，向车企输出更加完整、更定制化的解决方案。

以自动驾驶数据的“标注”为例，现实驾驶数据在经过脱敏（保护隐私）、加密（数据安全）传输到云端之后，需要通过计算机和人工进行“归纳整理”。哪些片段的数据最日常、哪些最特殊、哪些自动驾驶功能意外“罢工”、哪些片段出现了全新的“道路情况”。

通过这些数据“归纳整理”并且打上对应的“标签”，再把数据给到计算机，计算机就能按照特定的规则进行学习，例如罢工场景中哪些物体其实不危险、道路中出现意料之外的石头，需要及时退出自动驾驶，并且让驾驶员接管等等。复杂的审查和标注过程，很有可能拖慢整个自动驾驶研发的流程。

国内领先的数据标注公司“星尘数据”为此推出了Stardust全场景能力平台，拥有强大的人工标注、智能标注、自动化标注等能力。基于华为云ModeArts&星尘数据标注训练一体化方案，帮助车企在“标注”环节提高研发效率30%以上。

车企用户所需要做的，只是在购买云能力的基础上，增购这个解决方案的费用，就能将两者像“积木”一样拼起来，大大缩短了自动研发平台搭建所需的时间。

四维图新是另外一个典型的案例，作为国内知名的自动驾驶高精地图厂商，它所提供的高精地图数据能够精准地定位车辆，给出精准到车道级别的定位信息和道路数据。

但这种数据稀少、昂贵且不及时，在部分特殊场景如高速道路的车道临时施工中，高精地图甚至会影响自动驾驶的安全性。为了彻底解决这个缺陷，让自动驾驶汽车可以更信赖高精地图，四维图新提出了一整套云联合解决方案，将过去软件厂商独立生成的地图数据上云，并且将车企实际驾驶收集来的数据，一并加入到自动驾驶高精地图的数据闭环中来，相当于路上每一辆车都是高精地图的数据收集车，最新数据在经过一系列处理之后，还能重新进行下发，最终让高精地图实现前所未有的即时性，甚至是帮助汽车提前感知视距以外的路况。

实现这套解决方案的关键，依旧是云。四维图新在华为云提供的自动驾驶云平台基础上，搭建了包括数据合规、地图闭环平台、数据处理、数据标注、模型训练、仿真测试在内的一系列任务模块。车企完全可以根据自己的需求，采购服务能力和云资源，或者是调配资源的量与使用时间，轻松实现最高的性价比。

与它们相似的案例还有很多，例如专攻自动驾驶数据管理的格物钛，帮助车企在云厂商数据库技术的基础上，更好地管理自动驾驶数据；例如专攻自动驾驶数据仿真的赛目科技，车企可以在云上对收集的数据进行重现、仿真，甚至还可以估算出单个场景下车辆的安全程度。

这些细致而又丰富的能力与云厂商一起，最终形成了“云厂商基础能力+云厂商自动驾驶服务能力+专业软件公司服务能力”的三重组合，为中国汽车产业给出来自IT产业的完美回答。

全力助攻自动驾驶的华为云

在前不久举办的中国电动汽车百人会论坛上，华为云EI服务产品部部长尤鹏就公开介绍了华为最新的“自动驾驶数据闭环解决方案”，为车企全面提供训练、数据、算力三层加速。整体覆盖车企在自动驾驶开发过程中的数据采集和数据处理需求、算法开发需求、模拟仿真需求。真正克服影响高阶自动驾驶落地的不常见但不断出现的“长尾问题”，提升大规模高效处理新场景数据并且优化算法模型的能力，最终实现数据的高效流动。

帮助华为实现这套解决方案的，是华为强大的云底座能力，例如华为的昇腾芯片和ModelArts就提供了业界最强大也是最高性价比的AI算力；DataTurbo等数据库技术，消除了数据的读写训练的带宽瓶颈；在许多自动驾驶具体场景的算法中，华为也进行了深度优化，较之前的解决方案性能平均提升30%-45%。

与此同时，在成本高、耗时长的仿真环节，要借助先进的技术缩短数据积累周期。华为云计算通过NeRF技术，通过采集的2D图片，可以生成、重建多个3D场景，大幅度提升仿真数据的构建效率，降低数据积累成本。

我国自动驾驶产业应秉持开放合作的心态，才能有更多精力投入自动驾驶的业务创新。如华为提供了开放的、乐高式的工具链平台，自动驾驶厂商可以根据自己的实际开发需求，如同搭积木一般灵活的组合，满足自身的开发需求。

目前，在云计算之上，华为云、星尘数据、四维图新、赛目科技等等一批业内专业软件服务商的技术与能力，进一步提升对车企的服务能力水平。

可以预见，双向奔赴的中国IT产业和汽车产业，正在通过瞄准自动驾驶变革，以开放的产业生态理念，披荆斩棘的发展新思路全速前进，共建良好生态的协同思维，必将推动中国智能汽车产业走向新高度。

特别策划

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章