Redian新闻
>
自动驾驶巨头们的数据“竞速赛”

自动驾驶巨头们的数据“竞速赛”

公众号新闻

2021年初,特斯拉披露正在位于纽约的Gigafactory招聘一组数据标签员,以提供图像标注支持,帮助训练Autopilot/FSD神经网络。因为对于自动驾驶演进来说,算法方面的差距会逐渐缩小,数据将是真正影响技术能力和用户体验的重要因素。

而按照此前公布的数据,特斯拉总共有近千人的数据标注团队规模。“数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”数据堂公司相关负责人表示。

另一方面,硬件预埋也推动了智能驾驶行业进入数据驱动迭代周期。

今年,英伟达在Orin进入规模上量阶段的同时,推出了Drive Map,基于精确测绘数据与匿名众包数据相结合,提供厘米级的定位精度。后者,由搭载英伟达Hyperion架构的车辆提供数据众包,包括来自摄像头、激光雷达和毫米波雷达的数据。

所有这些数据,从车端不断上传到云端。然后,加载到英伟达的Omniverse平台,后者是一个为虚拟仿真和实时物理精确模拟而构建的开放平台,用于更新地图数据。同时,这些数据会转换成模拟测试环境,可用于Nvidia Drive Sim,一个端到端的自动驾驶车辆模拟平台。

而在Omniverse的背后,还有数据自动标签技术。

“Omniverse允许我们创建多样化、海量、精确的数据集,以构建高质量、高性能和安全的数据集,这对人工智能至关重要。”这其中,对于传统手工数据标注的增强,是关键要素之一。

马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。

据悉,特斯拉只有“几十名”工程师在研究神经网络,但背后有一个“庞大”的团队在研究标签。一方面,手动高质量标准仍是基础工作,另一方面,标签自动化也是趋势,从而应对车队收集的大量数据。

Mobileye也是如此。公开数据显示,这家公司背后有一支2500多人组成的数据标注团队,每月可处理5000万个数据集——相当于500,000小时的驾驶里程,并建立了一个庞大的内部搜索引擎数据库。

这意味着,标注效率以及准确性,决定了视觉及多融合感知技术的迭代速度。“高质量数据,某种意义上就是决定性的要素。”在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

而大众集团也有着同样的策略。比如,其基于Trinity开发的车型(预计2024年发布),被视为未来的“时间机器”,自动驾驶系统将受益于CARIAD正在开发的新型“神经网络”,与其他联网汽车共享道路、交通和其他系统的实时数据。

支持数据驱动开发将成为大众集团E³2.0软件平台的基本配置,背后还有为此搭建的云数据中心(VW.AC),后者在微软Azure上建立一个基于云的自动驾驶平台(ADP),软件功能开发周期将从现在的几个月缩短到几个星期。

此外,作为全球年产销量龙头的丰田,也已经开始在部分国家及地区启用数据采集功能,帮助开发和改进基于图像识别算法的ADAS系统,并保持对集成在车辆上的ADAS系统进行验证和评估。

而在中国,理想汽车用户驾驶总里程已达30.6亿公里(根据最近数据),辅助驾驶总里程达到2.9亿公里,NOA驾驶总里程达到2462万公里,而有效学习场景总里程达到1.9亿公里,仅次于特斯拉。

在研发上,理想也采用了和特斯拉类似的“影子”模式,智能驾驶算法的开发版本和当前版本同时下放到车端,比较相同场景下算法能力。“只有在车型中全系标配智能驾驶功能,才能更好地获取真实的驾驶场景数据,供自动驾驶算法进行训练。”

可以见得,随着软件和数据成为智能汽车的核心增量,数据采集、数据开发和数据闭环能力也被视为车企最核心的竞争力之一。越来越多的车企和系统供应商也开始转向数据驱动的开发模式。

对于人工标注岗位(大概每小时20美元的工资),特斯拉也多次明确其重要性:基于Autopilot标注界面来标记图像,对于训练深度神经网络至关重要。

比如,标注团队将与Autopilot团队的计算机视觉工程师互动,以帮助改进内部标注工具的设计;同时,标注团队将获得基本的计算机视觉和机器学习知识,以更好地理解算法如何使用标签,因为这将帮助在标记过程中出现的困难的「边缘情况」做出准确判断。

实际上,这个背后所传递的信息是:数据标注并非简单的「拉框」,也不是纯粹的逐条标注。“这种方式既费时又费钱。”一些行业人士指出,大部分传统外包商交付的结果数据经多次返修,依然无法达到客户要求的精确度。

而标注效率以及准确性决定了视觉及多融合感知技术的迭代速度。可以说,高质量数据,某种意义上就是决定性的要素。在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

为此,数据堂也推出了自研的数据标注工具,内置ML辅助预识别功能,真正实现半自动化作业,有效提升人均效率30%以上。近30套标注工具,可灵活应用于语音、图像、3D点云、文本等多类型数据的标注,已成功应用在11年近5000多个项目的实施过程中。

比如,漏标是很严重的标注错误。数据堂在工具中内置了地面检测算法、颜色自动渲染,标注时可以根据颜色来判断标注物体,以减少漏标。

此外,这套工具还内置插值算法预标注功能,如在第一、五帧标注了目标ID,则会自动标注中间帧位置,只需查看或微调位置即可(主要用于目标追踪项目)。

值得一提的是,其自研数据采集工具,数据不经中间环节,自动回传至数据堂服务器,无限降低人为污染、泄漏数据的可能性。

2021年,数据堂的智能驾驶数据服务同比去年,业务涨幅达65%。这家连续数年在智能驾驶数据服务市场占有率领军的企业,也拿到了长城、上汽、小鹏、蔚来、宇通等国内一线车企的订单。

同时,考虑到数据合规的重要性,数据堂还在去年拿到了相关的测绘资质,也是业界唯一一家取得测绘资质的数据服务公司。这意味着这家公司可以在真实的道路环境下合法采集数据,并合规地进行数据标注和处理,构建其他数据服务商难以比拟的优势,也拿到了车企订单的准入门槛。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小马智行彭军:自动驾驶是一场长跑,要有耐力,也要有瞬时爆发力|中国自动驾驶十人专访小鹏汽车:计划2025年起向全面自动驾驶、无人驾驶进发那年火车上的故事 (上集)(十六)纠结往事​一夜蒸发960多亿,芯片巨头们的“寒冬”如何熬过去照着这本“书”,3年量产自动驾驶卡车自动驾驶小巨头的“灾难性”上市量产自动驾驶重卡,不妨摸着嬴彻科技过河平均交付准确率99%以上!又一大厂进军自动驾驶AI数据服务,教AI学会人类标注能力商用车中重卡L4级自动驾驶前瞻开通钱包抽盲盒、体验自动驾驶……服贸会数字人民币展区人气旺特斯拉以后不能叫全自动驾驶!加州做得过分了?买入百度,介入云和自动驾驶市场 | 公司观察自动驾驶「苦行僧」佟显乔:噤声三年,只为今日启程一自动驾驶独角兽倒闭!两大巨头同时撤资!烧光36亿!自动驾驶3.0时代:特斯拉之后,下一个为什么会是毫末智行?打破自动驾驶数据标注的「手工模式」,博登智能获数千万元天使轮融资丨早起看早期烧完36亿美元,自动驾驶巨头突然倒下:员工遣散,车企转投辅助驾驶对话百度王亮:谁是中国自动驾驶探路人?|中国自动驾驶十人专访元气森林“竞速”外卖赛道,美团数据:销量同比增速88%轻舟智航创始人兼CEO于骞 :在自动驾驶寒冬中出生,在马拉松长跑中追赶|中国自动驾驶十人专访继续恢复4「自动驾驶 数据标注」爆发,起底五大创业新秀的商业机密|汽车数智内参哥大承认排名数据“造假”,连线U.S. News官方,深度解读2023美国大学最新排名与录取趋势独家丨 一口气拿下超100亿订单,自动驾驶惊现大商机全程无接管,Mobileye城市自动驾驶东京实测如何实现数据高效管理并反哺赋能业务?这场自动驾驶闭门会要聊点实的清华AIR张亚勤院士:自动驾驶决赛在2030|中国自动驾驶十人专访结束与开始周日摘梨汽车可以降价,但自动驾驶软件必须涨渐进派破壁:西有特斯拉,东有毫末智行!用数据智能推动自动驾驶历史进城美国自动驾驶、芯片、AI巨头集体大裁员八折起售,科技巨头们的“业绩杀”才刚刚开始?拉古纳海滩不要小看美国制造业,一组数据“震惊”了我!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。