毛利率高达60%!智能驾驶降本「博弈」数据标注/训练服务
从Mobileye进入汽车前装赛道开始,计算机视觉技术在智能驾驶领域就开始成为主角。而背后,是对大量数据的处理。
在Mobileye公司创始人看来,计算机视觉技术和强大的自然语言理解(NLU)模型使用,即使是罕见条件和场景下的“长尾”事件,仍可以在几秒钟内输出数千个结果。
在此之前,Mobileye拥有全球公认庞大的汽车数据集,包含了过去25年中超过200 PB的真实环境驾驶视频素材,共1600万个1分钟视频片段。
按照该公司此前披露的官方数据,这个庞大数据集的背后,是2500多名专业标注人员的手动标注,这种方法消除了人工智能决策的不确定性,并在统计上实现了超高的平均故障间隔时间。
而几乎在同一时期,大量瞄准L4级自动驾驶场景切入的初创公司带动了第一波数据人工标注的需求爆发。数据标注员也成了大部分公司岗位招聘的重点,也催生了一批第三方数据标注公司。
这样的需求,不只是智能驾驶赛道,包括几乎所有AI应用的领域,从语音到图像再到视频,数据标注也逐渐发展成一个独立的行业。
4年前,一家名叫海天瑞声的公司开始筹备科创板上市,这家公司成立于2005年,一直从事为人工智能企业及科研机构提供数据服务,包括数据资源定制服务、数据库产品、数据资源相关的应用服务这三大类产品。
这家公司的数据训练(标注)服务覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个人工智能核心领域,并最终服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
招股书显示,海天瑞声2018年、2019年、2020年营收分别为1.93亿元、2.38亿元、2.33亿元;净利润分别为6713万元、8158.68万元、8208.1万元。
不过,从2021年开始,这个行业似乎进入波动期。数据显示,2021年海天瑞声营业收入约2.06亿元,同比减少11.53%;归属于上市公司股东的净利润约3161万元,同比减少61.49%。
2022年年报显示,海天瑞声2022年实现营收2.63亿元,同比增长27.32%(其中,来自智能驾驶业务收入同比增长);归属于上市公司股东的净利润2945.41万元,同比下降6.81%。
具体信息显示,2022年,该公司首次单独披露智能驾驶业务收入,当年实现营收4,174.51 万元,同比增长115.12%,客户数量超过50家,覆盖传统车企、新势力车企、智能驾驶技术公司等。
这背后的业绩驱动,来自过去几年,前装智能驾驶赛道对于2D+3D融合标注、点云BEV、4D标注等新需求的出现。同时,政府监管部门对于数据合规的要求,也驱动标注行业新一轮洗牌。
2022年6月,海天瑞声取得北京市规划和自然资源委员会行政许可,获得乙级测绘资质, 这意味着,该公司可以合规开展汽车数据采集、标注业务。
然而,智能驾驶产业链正在进入「去」人工标注的新周期。与此同时,过去行业对于第三方供应商的需求来自于数据采集、人工标注(一些公司也在研发半自动化工具提升效率)。
比如,一直以来,特斯拉拥有一支庞大的数据标注团队,规模在1000人左右。团队每天对视频数据中的物体在“矢量空间”中进行标注,这些数据都会用于神经网络训练。
不过,2022年6月,特斯拉突然被爆出关闭了位于美国加州圣马特奥(San Mateo)的一个办公室,并解散了辅助驾驶系统团队的约200名员工,这些人正是从事数据标注工作。
原因之一,正是特斯拉推出的超级计算机Dojo,这是一台利用海量视频数据,做无人监管标注和训练的超级计算机。
按照海天瑞声的公告,该公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业务相关的采购总额的比重较高,达到83.21%。
由此,特斯拉将自动标注能力引入了自动驾驶技术研发,在大幅降低人工标注成本的同时,提升整体标注效率。这一点,也很快得到其他企业的响应。
比如,为了满足开发者对于AI软件产品开发及迭代需求,地平线也推出一站式工具平台AIDI,预训练模型、自动标注等方式让数据标注成本降低15%。
毫末智行也在今年推出了4D Clips自动化标注技术,可以使得单张图片的标注成本降到0.5元,是目前行业平均成本的1/10。同时,大模型也正在将云端的能力对外开放,包括大规模数据的自动化标注,场景仿真测试等。
而在海天瑞声看来,长期来看,训练数据行业的发展将由资源主导转变为技术主导,单纯依靠人力增长来应对指数级增长的数据需求是不现实的,因此持续提升数据处理的自动化程度将成为解决产能问题的核心要素。
此前,该公司也明确指出:如果公司开发的训练数据集产品不能满足下游客户对训练数据的要求,则可能存在无法实现授权销售的风险,进而对公司未来的经营业绩产生不利影响。
而作为早期数据标注公司的主要客户,自动驾驶公司也在进入这个赛道,尝试将过去的闭环研发经验转化为对外的可盈利业务。
就在今年初,小马智行推出了数据闭环工具链“苍穹”,由两大核心模块协同组成,分别是车云协同大数据平台与云端大规模仿真平台,配合数据标注工具与模型训练工具,实现对两类客户核心需求的全覆盖。
目前,苍穹数据闭环工具链已经提供给多家车企使用,帮助构建研发测试阶段的全量数据闭环以及量产阶段基于影子模式的数据闭环。
按照海天瑞声的最新披露,其认为,智能驾驶市场(数据标注服务)主要参与者有品牌数据服务商,客户自建团队以及一些中小服务商。从目前行业格局来看,品牌服务商占据较大比例的市场份额。
根据该公司披露的2022年度财报显示,数据服务业务综合毛利率仍高达64.73%,考虑到智能驾驶赛道进入数据驱动开发的新周期,无论是车企还是Tier1,对于降本的需求将对数据服务赛道产生巨大的冲击。
此外,海天瑞声表示,由于以智能驾驶等为代表的新兴业务现阶段以客户定制化服务为主,报告期内,营业收入的增长也带动营业成本出现同步高增长,达到 163.67%,整体上导致该板块业务毛利率出现微幅下降。
尤其是高阶智能驾驶渗透率的逐步提升,传统外采数据的需求也在逐步下降。「数据采集的质量要求在快速提升,未来高质量数据一定是来自车企,这和过去更多预研的需求,有本质上的不同。」
此外,由于大部分数据服务公司的营业利润受成本和管理费用的影响很大,并且行业逐步从依赖人工标准转向高度依赖高端技术人员研发自动化工具平台,导致成本逐年增加,毛利率和净利率下降风险凸显。
微信扫码关注该文公众号作者