自动驾驶巨头们的数据“竞速赛”
2021年初,特斯拉披露正在位于纽约的Gigafactory招聘一组数据标签员,以提供图像标注支持,帮助训练Autopilot/FSD神经网络。因为对于自动驾驶演进来说,算法方面的差距会逐渐缩小,数据将是真正影响技术能力和用户体验的重要因素。
而按照此前公布的数据,特斯拉总共有近千人的数据标注团队规模。“数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”数据堂公司相关负责人表示。
另一方面,硬件预埋也推动了智能驾驶行业进入数据驱动迭代周期。
今年,英伟达在Orin进入规模上量阶段的同时,推出了Drive Map,基于精确测绘数据与匿名众包数据相结合,提供厘米级的定位精度。后者,由搭载英伟达Hyperion架构的车辆提供数据众包,包括来自摄像头、激光雷达和毫米波雷达的数据。
所有这些数据,从车端不断上传到云端。然后,加载到英伟达的Omniverse平台,后者是一个为虚拟仿真和实时物理精确模拟而构建的开放平台,用于更新地图数据。同时,这些数据会转换成模拟测试环境,可用于Nvidia Drive Sim,一个端到端的自动驾驶车辆模拟平台。
而在Omniverse的背后,还有数据自动标签技术。
“Omniverse允许我们创建多样化、海量、精确的数据集,以构建高质量、高性能和安全的数据集,这对人工智能至关重要。”这其中,对于传统手工数据标注的增强,是关键要素之一。
马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。
据悉,特斯拉只有“几十名”工程师在研究神经网络,但背后有一个“庞大”的团队在研究标签。一方面,手动高质量标准仍是基础工作,另一方面,标签自动化也是趋势,从而应对车队收集的大量数据。
Mobileye也是如此。公开数据显示,这家公司背后有一支2500多人组成的数据标注团队,每月可处理5000万个数据集——相当于500,000小时的驾驶里程,并建立了一个庞大的内部搜索引擎数据库。
这意味着,标注效率以及准确性,决定了视觉及多融合感知技术的迭代速度。“高质量数据,某种意义上就是决定性的要素。”在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。
而大众集团也有着同样的策略。比如,其基于Trinity开发的车型(预计2024年发布),被视为未来的“时间机器”,自动驾驶系统将受益于CARIAD正在开发的新型“神经网络”,与其他联网汽车共享道路、交通和其他系统的实时数据。
支持数据驱动开发将成为大众集团E³2.0软件平台的基本配置,背后还有为此搭建的云数据中心(VW.AC),后者在微软Azure上建立一个基于云的自动驾驶平台(ADP),软件功能开发周期将从现在的几个月缩短到几个星期。
此外,作为全球年产销量龙头的丰田,也已经开始在部分国家及地区启用数据采集功能,帮助开发和改进基于图像识别算法的ADAS系统,并保持对集成在车辆上的ADAS系统进行验证和评估。
而在中国,理想汽车用户驾驶总里程已达30.6亿公里(根据最近数据),辅助驾驶总里程达到2.9亿公里,NOA驾驶总里程达到2462万公里,而有效学习场景总里程达到1.9亿公里,仅次于特斯拉。
在研发上,理想也采用了和特斯拉类似的“影子”模式,智能驾驶算法的开发版本和当前版本同时下放到车端,比较相同场景下算法能力。“只有在车型中全系标配智能驾驶功能,才能更好地获取真实的驾驶场景数据,供自动驾驶算法进行训练。”
可以见得,随着软件和数据成为智能汽车的核心增量,数据采集、数据开发和数据闭环能力也被视为车企最核心的竞争力之一。越来越多的车企和系统供应商也开始转向数据驱动的开发模式。
对于人工标注岗位(大概每小时20美元的工资),特斯拉也多次明确其重要性:基于Autopilot标注界面来标记图像,对于训练深度神经网络至关重要。
比如,标注团队将与Autopilot团队的计算机视觉工程师互动,以帮助改进内部标注工具的设计;同时,标注团队将获得基本的计算机视觉和机器学习知识,以更好地理解算法如何使用标签,因为这将帮助在标记过程中出现的困难的「边缘情况」做出准确判断。
实际上,这个背后所传递的信息是:数据标注并非简单的「拉框」,也不是纯粹的逐条标注。“这种方式既费时又费钱。”一些行业人士指出,大部分传统外包商交付的结果数据经多次返修,依然无法达到客户要求的精确度。
而标注效率以及准确性决定了视觉及多融合感知技术的迭代速度。可以说,高质量数据,某种意义上就是决定性的要素。在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。
为此,数据堂也推出了自研的数据标注工具,内置ML辅助预识别功能,真正实现半自动化作业,有效提升人均效率30%以上。近30套标注工具,可灵活应用于语音、图像、3D点云、文本等多类型数据的标注,已成功应用在11年近5000多个项目的实施过程中。
比如,漏标是很严重的标注错误。数据堂在工具中内置了地面检测算法、颜色自动渲染,标注时可以根据颜色来判断标注物体,以减少漏标。
此外,这套工具还内置插值算法预标注功能,如在第一、五帧标注了目标ID,则会自动标注中间帧位置,只需查看或微调位置即可(主要用于目标追踪项目)。
值得一提的是,其自研数据采集工具,数据不经中间环节,自动回传至数据堂服务器,无限降低人为污染、泄漏数据的可能性。
2021年,数据堂的智能驾驶数据服务同比去年,业务涨幅达65%。这家连续数年在智能驾驶数据服务市场占有率领军的企业,也拿到了长城、上汽、小鹏、蔚来、宇通等国内一线车企的订单。
同时,考虑到数据合规的重要性,数据堂还在去年拿到了相关的测绘资质,也是业界唯一一家取得测绘资质的数据服务公司。这意味着这家公司可以在真实的道路环境下合法采集数据,并合规地进行数据标注和处理,构建其他数据服务商难以比拟的优势,也拿到了车企订单的准入门槛。
微信扫码关注该文公众号作者