Redian新闻
>
平均交付准确率99%以上!又一大厂进军自动驾驶AI数据服务,教AI学会人类标注能力

平均交付准确率99%以上!又一大厂进军自动驾驶AI数据服务,教AI学会人类标注能力

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI
AI数据是人工智能行业的燃料,在智能驾驶领域同样扮演着助推技术落地的角色

如今自动驾驶成为了人工智能领域最受关注、最具挑战和影响力最为广泛的产业方向,是推动全球汽车工业变革最重要的科技力量。

汽车正在向智能化转变,在自动驾驶落地较好的企业往往也具备强劲的市场竞争力。但目前智能汽车想要实现更高等级的自动驾驶,还有许多技术难点有待解决。

成熟的自动驾驶技术需要具备感知和决策两方面能力。

通过多种融合的车外传感器使汽车具备感知周围行驶环境的能力;决策则是基于感知和理解后的信息给出判断和建议,再通过分模块的方式下达和完成自动驾驶任务。所以对于周围信息的判断和感知能力显得尤为重要。

事实上,数据、算法、算力被看成人工智能中的“三驾马车”,数据是其中的土壤。

当前提升自动驾驶感知能力的主要方式是依靠有监督学习的方法,将大量标注过的数据对算法进行“投喂”,通过不断地训练,让模型具备感知能力并达到一定的识别准确率。

近日,ICVS中国自动驾驶年会召开,在火山引擎 X NVIDIA云上创新专场上,火山引擎首次面向智驾行业集中展示了AI数据服务的能力,并分享了在构建高质量、高安全性、高效的数据服务体验上的思路,成为了活动上的焦点。

如何靠标注提升自动驾驶“感知力”?

在路面上行驶的自动驾驶车辆每天会产生大量的数据,如何管理并标注好这些数据显得非常关键。

随着数据标注需求量的爆发,简单粗暴地堆人力已无法有效解决“需求波峰”时供应不足的行业痛点。

针对这些行业痛点和需求,火山引擎AI数据服务基于全生命周期的管理作业平台,提供一站式的服务能力体系,包含:售前咨询、方案设计、数据采集、数据标注、调研测评、智能标注工具等,帮助企业解决智能驾驶时代下的高质量数据缺口问题。

AI数据服务的一站式服务能力

火山引擎提供从售前阶段到定制化数据采集&标注服务,有专业的售前经理为客户提供完整的质量把控、数据流转、人员等方面的规划方案,保证全周期的交付质量。

执行团队凭借丰富的采集和标注交付经验,提供覆盖2D类、3D类、ASR、TTS、NLP等数据类型的采标服务,灵活地针对客户的需求提供定制化的方案。并利用智能化的标注工具套件、AI预标注和边标边训的模式,实现人机协作,有效提升效率、为企业降低成本。

同时,结合了先进的项目管理经验和方法论,逐步形成质量进度管理、资源管理、技术工具和数据安全四个支撑方案,最终呈现一套专业的、一站式的服务能力体系。

智能驾驶中的两大标注需求

在智能汽车领域中,火山引擎AI数据服务主要针对自动驾驶、智能座舱两大方向,提供高质量的数据采集、标注服务。

自动驾驶领域,火山引擎根据L2级别组合驾驶辅助,提供对车道和周围环境数据的采集和标注服务,通过持续不断地投喂高质量的数据,来提升智能汽车在路面行驶时对周围环境及物体的感知能力。

针对L3级及以上的自动驾驶等级,火山引擎借助点云标注的大方向,通过3D点云场景下的连续帧、2/3D融合、点云语义分割等标注类型,解决自动驾驶应用场景持续拓展对于多源异构数据的需求,数据精准度可达99%级别,直击数据需求痛点,加速自动驾驶算法落地。

智能座舱领域,通常需要对车内的不同条件下的人脸、手势、语音数据采集和标注,让智能座驾能够理解驾驶员的意图并快速响应,丰富驾驶乐趣和使用体验的同时,也能进一步增强行驶安全性。

针对车内的生物识别和手势控制识别技术,火山引擎AI数据服务可提供多种设备(录音笔、手机、车机鱼眼摄像头等)、多角度(直视、45度、仰视等)、多场景(多场景下的光线条件)下的数据采集服务,对驾驶员眼球视线和人脸轮廓及手势进行标注,用于判断和识别驾驶员驾驶状态和对车机下达的操控指令,确保机器训练所用的非结构化数据来源足够丰富和多样。

在声控信息交互和情感交互识别方面,可提供多语种(普通话、方言、英语等)、多语料、多场景(车内、车外、多乘客等)及不同性别、年龄人的语音采集和标注能力,用于训练和提升语音唤醒、语音识别、NLP、情感识别等模型的效果。

现阶段,火山引擎AI数据服务在智能驾驶领域拥有几千名2D/3D经验生产人力,平均交付准确率已经可以实现99%以上

客户已经覆盖头部互联网公司无人车项目、造车新势力、传统车厂、图商、自动驾驶方案提供商等。

项目能力覆盖了2D/3D融合、点云车道线、连续帧追踪标注等主要类型。标注车型覆盖商用车、乘用车及无人配送车等多类型车辆,标注场景实现全覆盖。

利用智能化数据平台提升标注效率

当前,许多数据标注企业仍停留在劳动密集型产业的定位中,在面对现阶段自动驾驶所需要处理的巨量数据时,就显得捉襟见肘。

从趋势上来看,行业正在向AI辅助+精细化管理的方向转变。

通过AI辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一。需要大规模堆人力的魔咒,正在不断被技术所打破。

一款好用的平台可以实现数据全流程可视化的管理、质检模式可多层次灵活配置、针对复杂任务可执行数据串行并行流转,能够保证多个项目在平台实现一体化作业。

作为数据标注的集大成者,火山引擎数据标注平台中集成了多种标注模板、预标注与边标边训算法,同时具有保障数据安全、平台操作便捷、可定制化、可与火山引擎云产品打通的特性。

通过模版工具丰富多样、人工与算法灵活配合、数据服务专业高效灵活将持续为客户的数据处理工作保驾护航。

火山引擎数据标注平台的优势

另外,平台支持系统部署到企业自有服务器上,企业的所有系统数据均在自主管理下,私密数据的安全性有保障。

同时还可根据企业自身需求与业务场景,定制个性化产品方案,让产品更好地被企业使用,实现业务发展与标注需求的一比一完美适配。

在标注工具方面,实现了对各类常见的文本、图像、视频、语音、3D点云数据的自定义处理需求,降低了模板冗余,帮助客户快速获取低成本、高质量的结构化数据。

在算法赋能方面,火山引擎的数据标注平台的AI预标注与边标边训的算法能力,大幅提高了标注效率与准确率,可辅助和代替部分人工操作,并根据项目类型,选择适合的模型能力在相应项目阶段接入。

标注平台的模型能力

模型过滤阶段:由模型进行原始数据的分析,过滤掉不需要人工标注的数据,只留下需要人工标注的数据。

模型预标阶段:用模型进行数据的预先标注,标注员只需进行确认或修改。

模型纠错阶段:在标注作业时,模型可以实时进行智能纠错,避免标注员提交低质量任务。

模型质检环节:在质检作业时,模型可以辅助筛选需重点质检任务或直接完成数据的验收。

火山引擎利用边标边训的数据标注模型,智能化地学习作业内容与标注尺度,通过“自学习”方式驱动完成算法迭代,“智能+无感知”地学习人工标注习惯,带来更高的准确率和更好的数据标注体验。

在接到长周期、大批量类型项目时,模型偏向于“特定业务类型”,高准确率带来更高的人效收益;在处理短周期、小批量类型项目时,系统可快速切入并赋能业务,节省前期人工准备的时间。最终可实现30%-100%的效率提升和10%-30%的质量提升。

在业务快速发展的当下,AI数据服务业务对工时精细化管理的需求愈发迫切。

工时管理平台

为了更好的服务业务,火山引擎还推出工时管理系平台。该管理平台将实现工时精细化管理,推进工时管理系统化进程,提高工时数据的准确性,为高效实现项目工时管理和人效管理提供有力支持。

提升数据安全管理能力

高质量的数据产品往往离不开高质量的运营管理体系。

在产品质量方面,火山引擎通过高标准的人员准入门槛、长时间的经验累积和方法沉淀、专业的质检把关部门、灵活的平台支持把控质量。

在保证产品质量的同时,火山引擎数据服务的产量也值得称赞,覆盖全国支持大规模量产。

产量管理

在数据标注这个领域,产量是一个比较重要的课题,为了能保证高效、高产,火山引擎AI数据服务在三方面做了一个相应的配置。

资源层面,在天津、龙岩、重庆、烟台等10+地方拥有自建基地,综合标注人员达万人,可解决人力缺口问题。

人员管层面,构建了完整的人员管理、人员产能分析体系,实现灵活、敏捷、大规模用工的新模式。

平台支持层面,资源管理平台科学分发任务、进度看板提前预警。通过增强三方面的能力,能够以多维度、多角度、科学精准地做好产量管控。

近些年数据安全问题凸显,企业对数据的质量管控、安全管理及隐私保护等方面也有较大的诉求,如何最大限度地保障数据资产安全成为了重点课题。

数据安全管理

为了预防数据安全问题出现,火山引擎AI数据服务从人员培训、平台安全、工区场地安全再到网络及终端安全都采用了行业内最高标准,确保客户的核心利益不受损。

在数据流转的过程中,提供云链接加密传输、硬盘传送、专人监督运送、阅后即焚、文档权限管理等方式来保证安全性。

在人员培训、数据平台、物理工区、网络终端安全等方面,通过一系列科学的方式和培训来提高人员对数据安全保护意识;再通过数据平台水印、飞书文档权限、数据生命周期和行为记录等方式确保数据不外传;在物理场地采用门禁、CCTV和专人巡检的方式保障职场安全;并采用抖音集团的网络及终端安全管理方法来保证数据安全。

用AI数据增强汽车“智力”

算法、算力、数据作为AI核心三要素,相互影响,相互支撑,人工智能技术正在智能汽车行业内形成突破与快速落地,焕发出了源源不断的生机。

自动驾驶技术的问世,让人们构想出的“智慧交通再无拥堵”的概念离我们的距离越来越接近。

而要实现真正的自动驾驶不是一蹴而就的,它会经历一段渐进的过程,整个过程是从低速到高速,从人机共驾到无需驾驶员介入,从有一定风险到零事故发生,从商用到民用的渐进路线。

在自动驾驶算法模型逐步走向成熟,车端平台大算力普及的今日,数据规模自然而然地成为决定自动驾驶能力高低的关键变量,自动驾驶技术的落地离不开大规模高质量数据的支持。

数据规模、数据获取成本、数据质量直接和自动驾驶能力提升的速度和高度相关。随着高质量数据资源的积累,智能汽车将愈加智慧,智能驾驶体验愈发出色,围绕用户全生命周期的商业化模式也将愈发清晰。

AI数据服务负责人金亮表示:

当前,AI算法对训练数据维度和样本复杂性的要求变得越来越高,对数据标注技术、标注平台能力、数据安全、不同维度数据协同标注等都提出了挑战。

面对新挑战,火山引擎AI数据服务利用AI技术对海量图像及点云数据进行难例提取和场景挖掘,结合AI自动化预标注和辅助标注,辅以交互式人工标注和质量控制措施,将有效降低数据标注复杂度,提升整体数据质量,最终解决自动驾驶模型训练的痛点,快速地部署AI。

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Teradata 落幕中国的三个变化:“国产平替”变褒义、重型方法论不如最佳实践、前后端数据服务贴合小马智行彭军:自动驾驶是一场长跑,要有耐力,也要有瞬时爆发力|中国自动驾驶十人专访万亿商业数据服务市场,中国企业如何掘金?注意这几点零失败豆腐脑,你可能离吃上豆腐脑只差这么几步离自动驾驶又近一步!日产要在苏州搞出行服务,为啥要选文远知行?我在河边钓鱼 看见加国海洋渔业部的人围网抓三文鱼搞孵化数据说话:核酸检测准确率太低 最终只能静默自动驾驶巨头们的数据“竞速赛”这一届毕业生:大厂进不去,中小厂才是留美求职尽头第一财经入选2022年度上海市优质大数据服务供应商目录清华AIR张亚勤院士:自动驾驶决赛在2030|中国自动驾驶十人专访准确率近90%!PNAS最新研究发现多种早期癌症检测的新方法,或是“滴血验癌”新未来!惊世三姐妹契约和心魔,脏水和虐待-看佩尼两篇“梗概”有感「自动驾驶 数据标注」爆发,起底五大创业新秀的商业机密|汽车数智内参「刷耳识别」解决戴口罩刷脸问题,准确率高达99%AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新突发!又一大厂裁员,有人已经准备好当水管工了…准确率可达100%!谷歌全新方法解决ML模型「走捷径」问题全球自动驾驶规模化落地难?运营服务有望提供新解决方案只剩半个大脑,人识字看脸准确率竟还能达80% | PNAS佩罗西家老头挨揍的迷思,有没有“阴谋”的可能?估计会有人这么说未来十年,我们需要什么样的自动驾驶芯片? |中国自动驾驶十人专访如何实现数据高效管理并反哺赋能业务?这场自动驾驶闭门会要聊点实的再也不能用ChatGPT写作业了!新算法给AI生成文本加水印,置信度高达99.999999999994%从训练系统到驯化人类,自动驾驶安全员眼中的未来售价3300美元的自动驾驶婴儿车:自动前行、智能制动,还带哄睡基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023留学生不香了?大厂进不去,小厂嫌弃?最低工资标准1700元?轻舟智航创始人兼CEO于骞 :在自动驾驶寒冬中出生,在马拉松长跑中追赶|中国自动驾驶十人专访【人人都能欣赏的数学证明】为什么0.9999999········=1准确率 99.9% 的离线IP地址定位库自动驾驶时代,如何从卖车变成卖服务?“数据二十条”落地,数字经济红利在哪里?「数据」驱动行业拐点,毫末智行冲刺自动驾驶3.0时代
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。