自动驾驶,别让数据卡了脖子
就拿已经过去的2022年来说,全年总产量达到2700万辆,直接占到全球总量的31.8%;出口量更是首次突破了300万辆,刷新到了全球第二;在全球汽车新能源化浪潮中,已经实现了25.6%的市占比。
绚丽的数字背后,是整体汽车产业的越来越成熟,各个自主车企都进入了品牌价值的快速上升期,逐渐从过去的“活下来”往继续“做大做强”发展。
也正是因为中长期持续发展的视角,让许多车企提前投入到了汽车行业的下一场战役——“以量产车推进技术能力成长,抢先在将来的自动驾驶时代拔得头筹”。
在自动驾驶的前期探索中,主流路线一直是跃进式的。最典型的例子是Waymo,从一开始就大量使用昂贵的激光雷达,并且尝试直接去掉司机、彻底实现无人驾驶。在行业中辛苦熬了十多年之后,好不容易开始将过去的科研成果落地为Robotaxi业务,但好几年了还是在个别城市试点。
在自动驾驶这场短期内仍无望普及的长跑中,更有耐力、更符合商业诉求的第二种发展模式,正在成为中国汽车产业的大势所趋。
数据相关的挑战,自然而然地摆到了车企面前。
从2020年开始,中国市场乘用车的高级辅助驾驶(ADAS)搭载率一直都在快速爬升,根据相关统计,2022年上半年ADAS前装搭载率已经达到了26.64%,L2级智能辅助驾驶同比增长接近70%,相应的汽车价位已经进一步渗透到15万左右。
作为自动驾驶走向现实的关键,深度学习的基础原理,就是通过收集海量相关数据给计算机,并且进行特征分析、训练、验证,最终“训练”出一个高度精准的AI算法,用于实时感知不断变化的路况,通过推理计算给出可靠的驾驶指令。
换句话说:计算机只会它“学”过的,遇上没“学”过的题目,输出的驾驶指令可靠性就会迅速下降。无论是“跃进派”还是“渐进派”车企,都必须对数据进行布局,具体包括数据的收集、挖掘、训练等一系列环节。
先说采集,根据汽车工程师协会(SAE)的相关要求,L2-L3通常要求测试车辆累计收集20万至100万公里的真实路测数据,L4至少需要200万公里的数据。
以一个典型的L2级自动驾驶项目为例,如果以75公里每小时的平均速度(这个速度已经非常快了)收集20万公里里程,将生成近3000小时的数据,单个传感器需要大约4PB(1PB=1024TB)的存储空间,所有传感器加在一起将生成约20PB的原始数据,2万多块1TB的硬盘才装得下。而这还只是基础要求,随着车企量产产品的不断运行,累积的数据量只会越来越多。
如此海量的数据不光是存储的问题,还有传输和归档管理的问题。车企必须将存在于海量的实际用户车辆当中的数据,合规地收集起来,高效地通过网络传输到大型数据中心。在数据到达数据中心之后,还需要进行分类归档,不仅要保证数据存储的合理性,同时还要保证后续数据的存取足够高效。
紧接着是数据的脱敏,早在2022年8月中汽协就对汽车数据的脱敏提出了要求,包括车内(人脸)和车外(人脸+车牌)的图像数据都需要脱敏。但汽车收集的数据往往是动态的视频,所以同样需要人工智能的能力来对敏感数据进行追踪,进行相应的擦除、涂抹等操作。
然后是数据的标注,在给计算机投喂数据的过程中,并不是乱投一气,而是要在人类工程师的监督下,有规划地组织计算机学习,也就是提前由人类和程序对数据进行“标注”。寻常的驾驶数据可以归类之后让计算机自己学习,特别有价值的例如特殊天气下道路标志的识别、特殊的红绿灯识别、不寻常的障碍物等,则由人类工程师重点投喂,并且进行针对性的训练。如果“标注”的效率太低,前面数据收集的过程再快,也会被卡在这个环节上。
再往后,是关键的AI处理能力,自动驾驶PB级别的海量数据需要超大型的GPU加速器阵列才可以处理,在计算的过程中,还必须实现高效、高性价比。
车企一系列数据需求,尤其是数据的传输、存储、大规模处理,以及在数据需求背后对效率和性价比的需求,已经为汽车产业指明了最关键的合作伙伴:云厂商。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章