Redian新闻
>
AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了

AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了

科技
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

当IT行业改变整个世界的时候,DevOps理念从大量产业实践中诞生。

如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。

Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。

图源:ml-ops.org

这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。

与之相对的是,数据的工程化稍显落后。

对此,一直呼吁建设“以数据为中心AI”的吴恩达,今年初在接受IEEE Spectrum采访时也喊出新的口号:

AI要从大数据转向高质量的小数据。

吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。

但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。

实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。

AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。

最新解决方案来了

云测数据,一家以“将数据标注的最高准确率提升到99.99%”而闻名的AI数据服务公司,率先推出「面向AI工程化的新一代数据解决方案」

方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。

平台工具方面,除了基础的标注工具、API集成能力,还有数据流转产线工作台和数据产能管理体系。

管理体系方面,分为人员管理和项目管理两部分。

数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理4个角度提供保障。

为什么是这三个方面?云测数据总经理贾宇航从AI工程化时代的不同特征进行了分析。

算法进入持续优化期,此时数据也要从瀑布式流转过渡到持续流转。

在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。

算法进入持续优化期,情况再次发生变化。

生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。

云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。

算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。

举例来说,前一阵谷歌的文本情感数据集GoEmotion就被一位机器学习工程师Edwin Chen指出有30%标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。

像这样的问题,在知识门槛颇高的金融、自动驾驶等领域场景中也有可能发生。

对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至99.99%。

最后,算法深入到实际业务中,数据安全需要得到保障。

云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足ISO27001和ISO27701标准。

新一代数据解决方案,如何炼成?

云测数据是AI数据服务领域的领先者,凭借在产品、服务、技术研发等方面的综合实践,已连续三年被评为行业第一,具备丰富的研发及产业化服务经验。

技术能力方面,去年云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果,率先形成AI训练数据的“采、标、管、存”一站式服务,实现从“数据原料”到最后的“数据成品”全链条打通,输出完整的数据价值,其中更是将数据标注的最高准确率提升到了99.99%。

又经过一年的打磨完善后,云测数据标注平台&数据集管理系统在工具丰富性与易用性得到升级,并且与各种类型企业系统对接的能力得到增强,整合到最新解决方案里。

行业经验方面,云测数据提供多维度、场景化的数据服务与策略,多年来服务于汽车、安防、手机、家居、金融、教育、新零售、地产等行业,满足AI应用在数据质量、数据丰富度、数据时效性等方面的需求。

另外正如MLOps继承自软件行业的DevOps,Testin云测结合自身优势,将软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。

到如今,随着智能化转型的逐渐深入,云测数据的服务对象已扩展至各行各业,正是在大量实践与不断探索中,AI数据服务所需的方方面面被云测数据掌握、整合,最终沉淀成新一代数据解决方案集中发布亮相。

而随着新一代数据解决方案的发布及云测数据背后更多动作布局,给AI数据服务行业本身也带来一些改变。

云测数据,带来什么改变?

先看云测数据给服务对象带来的改变。

以自动驾驶行业为例,首先是一站式解决自动驾驶领域多场景的数据采集的需求,包括智能驾驶主流应用场景。通过云测数据的DMS与ADAS场景搭建采集能力,来减少数据采集周期、提升数据质量。

接下来,通过数据标注平台来解决包括2D标注、3D点云标注、2D/3D融合标注、语义分割、目标跟踪等等数据标注需求,同时标注&管理平台支持与企业完成训练、仿真等系统集成。

数据不必再按批次来回传输,实时处理的同时节省大量时间和成本。数据不出企业内网就能完成流转,同时也支持专业标注员驻场作业,在保证数据安全的基础上,有效降低信息传递损耗,同时兼顾标注作业效率和质量的提升。


据贾宇航透露,以某自动驾驶相关企业为例,原来要花一周时间的AI数据工作,对接新一代数据解决方案后效能至少提升2倍以上

凭借这样的能力,云测数据与行业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车等众多自动驾驶企业建立了持久良好的合作关系。

效率的提升同样体现在零售货检行业,通过云测数据标注平台将货柜检测数据持续回流,基于算法预标注结果进行可视化审查并修改,与纯人工标注效率提升3倍。

而在金融领域,通过云测数据标注平台及集成算法API可进行金融票据标注,通过离岸的安全房进行标注,在保证质量和效率的基础上确保数据隐私安全。

另外还有建筑行业也可以通过云测数据标注平台对生成建筑CAD图纸进行审查校验。

云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。这其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业覆盖率超90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。

与此同时,云测数据对AI数据服务行业自身的探索也在持续进行。

比如作为人工智能数据服务领域代表厂商,参与信通院牵头的全球首个MLOps模型开发管理标准,以数据标准化助推AI落地。

最新能透露的一条进展是, 云测数据正与云服务厂商合作,探讨延展数据服务的边界。

参考资料:
[1]
https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
低调的大S,和她的二婚真人秀低调的大S,和她的二婚真人秀重磅首发|2022全域数据驱动增长指南:用户数据主权争夺战,品牌该出手了飞轮,电容,电磁弹射和国运“汽车狂人”又出手了!NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链一个简单方法,寻找有能力提高股息的公司娄岩一周诗词五首看了那个把儿女送进哈佛的全职妈妈,我才明白:教育路上最不该偷懒的是父母,最不该放养的是孩子集度瞄准特斯拉,首款车打算跟Model Y掰掰手腕教你如何使用 htmlq 提取 html 文件内容细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!我发现凡是给offer的公司,面试时基本不问技术细节,那些问得又多又细的公司,后面就没下文了!答案黄磊,一个把自己盘出包浆的演员这家AI公司又要融10亿美金!会颠覆谷歌吗?这家AI公司又要融资10亿美金!说要惠及10亿人,会颠覆谷歌吗?紧跟恺明的步伐:记录一下复现行为识别slowfast模型的全流程(附详细代码)“新冠游轮”离开悉尼,刚刚进港墨尔本,当局表示传播风险很高,已将病毒风险级别提高到三级研究了代码质量后,开发速度提高了 2 倍,bug 减少了 15 倍也上几张黑白世界的照片做老师太难了评分高到9.8,国庆宅家就看这些了可以好好珍惜下!杨东最新交流直言:现在处于底部区间,又到了一个把握好周期的关键时点“2年换5个岗位,我被公司整晕了”,小心那个让你频繁更换岗位的公司买矿!买矿!2100亿巨头又出手了喝个水也要分三六九等?使劲忽悠你这么想的公司,估值都7亿美金了用UE4做战棋,这家最懂暗黑风的广州公司又赌赢了年薪$19W+!这家不让穿鞋上班的公司又来捞NG了!很难把标题写得不像广告,这羊毛必须薅!加州全民免费多语种在线辅导了解一下收缩、清退、整合、注资 小贷公司又少了买矿!2100亿巨头又出手了Chem. Eur. J. :离散二聚体结构大幅度提高手性萘双亚胺的固态发光效率和圆偏振发光性能世界首创主动式单细胞分选,精度>95%,纯迅生物(CX Genomics)即将推出精度最高细胞分选一体机那个把比特币当法定货币的国家,难上加难训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。