Redian新闻
>
自动驾驶巨头们的数据“竞速赛”

自动驾驶巨头们的数据“竞速赛”

公众号新闻

2021年初,特斯拉披露正在位于纽约的Gigafactory招聘一组数据标签员,以提供图像标注支持,帮助训练Autopilot/FSD神经网络。因为对于自动驾驶演进来说,算法方面的差距会逐渐缩小,数据将是真正影响技术能力和用户体验的重要因素。

而按照此前公布的数据,特斯拉总共有近千人的数据标注团队规模。“数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”数据堂公司相关负责人表示。

另一方面,硬件预埋也推动了智能驾驶行业进入数据驱动迭代周期。

今年,英伟达在Orin进入规模上量阶段的同时,推出了Drive Map,基于精确测绘数据与匿名众包数据相结合,提供厘米级的定位精度。后者,由搭载英伟达Hyperion架构的车辆提供数据众包,包括来自摄像头、激光雷达和毫米波雷达的数据。

所有这些数据,从车端不断上传到云端。然后,加载到英伟达的Omniverse平台,后者是一个为虚拟仿真和实时物理精确模拟而构建的开放平台,用于更新地图数据。同时,这些数据会转换成模拟测试环境,可用于Nvidia Drive Sim,一个端到端的自动驾驶车辆模拟平台。

而在Omniverse的背后,还有数据自动标签技术。

“Omniverse允许我们创建多样化、海量、精确的数据集,以构建高质量、高性能和安全的数据集,这对人工智能至关重要。”这其中,对于传统手工数据标注的增强,是关键要素之一。

马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。

据悉,特斯拉只有“几十名”工程师在研究神经网络,但背后有一个“庞大”的团队在研究标签。一方面,手动高质量标准仍是基础工作,另一方面,标签自动化也是趋势,从而应对车队收集的大量数据。

Mobileye也是如此。公开数据显示,这家公司背后有一支2500多人组成的数据标注团队,每月可处理5000万个数据集——相当于500,000小时的驾驶里程,并建立了一个庞大的内部搜索引擎数据库。

这意味着,标注效率以及准确性,决定了视觉及多融合感知技术的迭代速度。“高质量数据,某种意义上就是决定性的要素。”在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

而大众集团也有着同样的策略。比如,其基于Trinity开发的车型(预计2024年发布),被视为未来的“时间机器”,自动驾驶系统将受益于CARIAD正在开发的新型“神经网络”,与其他联网汽车共享道路、交通和其他系统的实时数据。

支持数据驱动开发将成为大众集团E³2.0软件平台的基本配置,背后还有为此搭建的云数据中心(VW.AC),后者在微软Azure上建立一个基于云的自动驾驶平台(ADP),软件功能开发周期将从现在的几个月缩短到几个星期。

此外,作为全球年产销量龙头的丰田,也已经开始在部分国家及地区启用数据采集功能,帮助开发和改进基于图像识别算法的ADAS系统,并保持对集成在车辆上的ADAS系统进行验证和评估。

而在中国,理想汽车用户驾驶总里程已达30.6亿公里(根据最近数据),辅助驾驶总里程达到2.9亿公里,NOA驾驶总里程达到2462万公里,而有效学习场景总里程达到1.9亿公里,仅次于特斯拉。

在研发上,理想也采用了和特斯拉类似的“影子”模式,智能驾驶算法的开发版本和当前版本同时下放到车端,比较相同场景下算法能力。“只有在车型中全系标配智能驾驶功能,才能更好地获取真实的驾驶场景数据,供自动驾驶算法进行训练。”

可以见得,随着软件和数据成为智能汽车的核心增量,数据采集、数据开发和数据闭环能力也被视为车企最核心的竞争力之一。越来越多的车企和系统供应商也开始转向数据驱动的开发模式。

对于人工标注岗位(大概每小时20美元的工资),特斯拉也多次明确其重要性:基于Autopilot标注界面来标记图像,对于训练深度神经网络至关重要。

比如,标注团队将与Autopilot团队的计算机视觉工程师互动,以帮助改进内部标注工具的设计;同时,标注团队将获得基本的计算机视觉和机器学习知识,以更好地理解算法如何使用标签,因为这将帮助在标记过程中出现的困难的「边缘情况」做出准确判断。

实际上,这个背后所传递的信息是:数据标注并非简单的「拉框」,也不是纯粹的逐条标注。“这种方式既费时又费钱。”一些行业人士指出,大部分传统外包商交付的结果数据经多次返修,依然无法达到客户要求的精确度。

而标注效率以及准确性决定了视觉及多融合感知技术的迭代速度。可以说,高质量数据,某种意义上就是决定性的要素。在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

为此,数据堂也推出了自研的数据标注工具,内置ML辅助预识别功能,真正实现半自动化作业,有效提升人均效率30%以上。近30套标注工具,可灵活应用于语音、图像、3D点云、文本等多类型数据的标注,已成功应用在11年近5000多个项目的实施过程中。

比如,漏标是很严重的标注错误。数据堂在工具中内置了地面检测算法、颜色自动渲染,标注时可以根据颜色来判断标注物体,以减少漏标。

此外,这套工具还内置插值算法预标注功能,如在第一、五帧标注了目标ID,则会自动标注中间帧位置,只需查看或微调位置即可(主要用于目标追踪项目)。

值得一提的是,其自研数据采集工具,数据不经中间环节,自动回传至数据堂服务器,无限降低人为污染、泄漏数据的可能性。

2021年,数据堂的智能驾驶数据服务同比去年,业务涨幅达65%。这家连续数年在智能驾驶数据服务市场占有率领军的企业,也拿到了长城、上汽、小鹏、蔚来、宇通等国内一线车企的订单。

同时,考虑到数据合规的重要性,数据堂还在去年拿到了相关的测绘资质,也是业界唯一一家取得测绘资质的数据服务公司。这意味着这家公司可以在真实的道路环境下合法采集数据,并合规地进行数据标注和处理,构建其他数据服务商难以比拟的优势,也拿到了车企订单的准入门槛。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
那年火车上的故事 (上集)(十六)纠结往事自动驾驶小巨头的“灾难性”上市继续恢复4照着这本“书”,3年量产自动驾驶卡车周日摘梨「自动驾驶 数据标注」爆发,起底五大创业新秀的商业机密|汽车数智内参对话百度王亮:谁是中国自动驾驶探路人?|中国自动驾驶十人专访美国自动驾驶、芯片、AI巨头集体大裁员元气森林“竞速”外卖赛道,美团数据:销量同比增速88%开通钱包抽盲盒、体验自动驾驶……服贸会数字人民币展区人气旺独家丨 一口气拿下超100亿订单,自动驾驶惊现大商机自动驾驶「苦行僧」佟显乔:噤声三年,只为今日启程量产自动驾驶重卡,不妨摸着嬴彻科技过河清华AIR张亚勤院士:自动驾驶决赛在2030|中国自动驾驶十人专访转让持有Space X、Shein、某头部氢能、自动驾驶等公司股份的专项基金LP份额|资情留言板第61期拉古纳海滩​一夜蒸发960多亿,芯片巨头们的“寒冬”如何熬过去商用车中重卡L4级自动驾驶前瞻小鹏汽车:计划2025年起向全面自动驾驶、无人驾驶进发如何实现数据高效管理并反哺赋能业务?这场自动驾驶闭门会要聊点实的渐进派破壁:西有特斯拉,东有毫末智行!用数据智能推动自动驾驶历史进城抢跑前装量产赛道,这家自动驾驶公司为何要自研域控制器?汽车可以降价,但自动驾驶软件必须涨小马智行彭军:自动驾驶是一场长跑,要有耐力,也要有瞬时爆发力|中国自动驾驶十人专访烧完36亿美元,自动驾驶巨头突然倒下:员工遣散,车企转投辅助驾驶特斯拉以后不能叫全自动驾驶!加州做得过分了?轻舟智航创始人兼CEO于骞 :在自动驾驶寒冬中出生,在马拉松长跑中追赶|中国自动驾驶十人专访一自动驾驶独角兽倒闭!两大巨头同时撤资!烧光36亿!买入百度,介入云和自动驾驶市场 | 公司观察打破自动驾驶数据标注的「手工模式」,博登智能获数千万元天使轮融资丨早起看早期结束与开始全程无接管,Mobileye城市自动驾驶东京实测平均交付准确率99%以上!又一大厂进军自动驾驶AI数据服务,教AI学会人类标注能力八折起售,科技巨头们的“业绩杀”才刚刚开始?自动驾驶3.0时代:特斯拉之后,下一个为什么会是毫末智行?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。