投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?|数智前瞻
一个月来,与ChatGPT有关的故事还在持续上演,甚至已经蔓延到了数据标注领域。
这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。
这种全行业认可首先反映到资本层面,国内一二级市场的相关公司应声实现了新一轮估值高涨。
春节后A股的第一个交易日,上市公司海天瑞声就结结实实走出了第一个涨停板,此后连续12天其股价一路高歌,从81.6元飙升到244.8元,市值超过百亿,比此前翻了3倍还多。
尽管海天瑞声在公告中已经作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入”……但资本的热情不减,截止发稿海天瑞声的股价仍处于230.30元高位。
而在一级市场,B轮及以前的十余家早期项目集体迎来了接近100%增幅的高估值,其中不少人已趁机敲定新一轮融资。有业内知情人士向36氪透露,“目前,即便是刚成立1-2年的新公司,其价格已经很贵了。”但数据标注公司每天迎来送往的早期投资人仍络绎不绝,甚至有创业者为了见投资人只能将招聘时间安排在夜里23:30之后。
国内不少正在布局ChatGPT的文本公司,对数据的需求激增。
对标海外各家大厂的大模型与数据标注平台的合作,Google的LaMDA选择与美国供应商合作,预训练语料库大小为2.81T;Meta的BlenderBot3与亚马逊MTurk合作,预训练语料库大小为180B;OpenAI的ChatGPT/InstructGPT与upwork和Scale AI合作,虽然没有公布详细数据,但预计预训练语料库不会太小。
不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。
“这段时间,我们能非常明显的感受到来咨询合作的文本公司暴增,他们普遍都在关心文本怎么构建、数据集如何制作等问题。”某数据标注公司CEO表示,“一周时间,找过来的公司已经有大几十家。”
这种价值认可还在AI大厂中蔓延。
Forrester分析师卢冠男此前曾表示,“ChatGPT对训练数据的标注方式提出了新的思路,所以在训练数据的工程准备上,企业也需要摸索和改进。”
据知情人士透露,“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”
超乎寻常逻辑,ChatGPT能带火数据标注行业,并不是因为数据量激增。
纵使OpenAI积累了包括维基百科、专业论坛、论文、图书在内的众多高质量英文文本数据,纵使GPT-3拥有1750亿参数,训练语料超45TB,但本质上,大模型对低层次的数据标注需求很低。
这与其背后无监督(含自监督)、半监督的机器学习方式有关。
早前,实现人工智能的主流方法是监督学习。这种训练方式中,训练集的各项数据特征和目标都是人为标注的。也就是说,这种模式需要进行大量基础数据标注工作,且高质量的数据被“淹没”其中,很难从中摘出来。
图灵奖得主、CNN之父Yann LeCun曾将无/自监督训练比作“人工智能蛋糕上的樱桃”。
因为无监督学习不需要前期大规模的数据标注,在训练数据中,只需要给定输入,没有人工给出正确的输出,目的是让模型开放式地、自己学习数据之间的关系。
半监督学习则处于两者之间。在这种学习方式中,模型会尝试从未标记的数据中提取信息来改进它的预测能力,同时也会使用部分已经标注过的数据进行结果验证。
换句话说,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。
但与此同时,让ChatGPT更具有“人味”的关键——强人工反馈 RLHF,却带来另一种更高要求的数据标注需求。
相关分析显示,“在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。”
也就是说,让ChatGPT"更具人味儿"的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。
紧跟趋势的国内公司已意识到这件事。在36氪的观察中,最近围绕大模型、ChatGPT的一个必谈话题就包括RLHF。而在实践层面,一家重注大模型的大厂专家对36氪表示,"现在公司已有上百人都在做强人工反馈相关的事情。"在他的眼中,不少同行同样对RLHF深度布局。
按照常理,RLHF应该完全属于数据标注公司的业务范畴。但如今一些有财力也看重这一需求的AI公司,也就是数据标注公司的客户,很可能在自己搭建、重组团队。
原因或许出乎意料——RLHF,可能是传统数据标注模式难以满足的需求。
前文提到,在开展RLHF之前,大模型的训练需要海量无标注数据以获得"基本的感知能力"。
这对数据标注公司提出了第一个创新需求——利用已按各类场景被标注、被清洗完善的数据集进行训练,成为刚需。而在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主,由于缺少自有数据很少有出售精准数据集的服务。
在「拓元智慧」王可泽的观察中,数据质量不高,会影响到无监督学习的效果,最终也影响大模型的精准性。
“ChatGPT价值最大的一部分就在于其拥有一部分精细的、被标注的指令数据。”王可泽说,“通过与ChatGTP的交互,就能感受到其技术团队在数据量和数据种类方面花了很多心思。”
一些投资人也看到这一趋势。商汤科技投资总监王暘表示:“现在已经看到大家在研发和训练大模型时,都较倾向选用已经标注好的开源或公共数据集。同时,为了提升训练质量,对购买已经标注好的数据集也有需求。”
而在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How,往往需要行业专业人士出手——这些不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。
也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。
新的需求已然清晰。
ChatGPT所代表的大模型,并不全盘需要传统的数据标注业务——为了精准性,它们看重数据集和RLHF所代表的人工反馈需求。
于是,一系列灵魂拷问出现在数据标注公司面前:如何才能快速提供可靠的数据集?又该如何升级人才架构?
首先针对数据集,目前国内多数传统数据标注公司并不提供这项业务。明确将“数据集”产品在官网提及的海天瑞声,产品集中在语音识别、语音合成、自然语言处理、计算机视觉数据集,垂直领域、热门场景下的高质量数据集仍相对稀缺。
另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。
36氪了解到,目前的确已有标注公司开始在内部撰写《人员提升教程》。他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。
但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。某数据标注公司运营负责人曾向36氪表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”
王可泽向36氪进一步拆解,如今的人工反馈还处于"初级状态"。在更精细化的场景中,AI需要很可能是一系列的深度专业意见。"比如在学术场景中,我们往往需要详细的指导,而不是简单的打分或者排序。"他打了个比方。
显然,这部分非常专业化的工作,远超数据标注公司的能力范畴。
但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。
比如,《时代周刊》报道显示,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,雇佣普通数据标注员为数据库中有害的内容进行标记。再加上,虽然大模型的机会往往属于财大气粗的少数大厂,但却可能长出不计其数的新型AI应用。这部分应用的AI训练,也需要传统数据标注。
也就是说,新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务,也可以依靠AI应用的增多分到一杯羹。
这意味着,一段时间内传统数据标注的总需求大概率不会减少。而这种阶段,或许也是"时间窗口期"——数据标注公司能一边依靠传统业务积累营收,一边依托收入投入新业务建设。
这种经营模式对数据标注行业而言并不陌生。只不过,过去它们的自我迭代方向是利用自动化手段撕下"堆叠人力"标签。
一家成立近15年的数据标注公司告诉36氪,行业内平均每家众包平台上都有上万人,人员流失率却多在30%以上。为提升标注精准性和人员工作效率,这家公司会对AI辅助标注的研发投入重金。现在,AI辅助标注工具的研发已成为全行业都认可的投入方向。
而面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。
王暘认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。"虽然人才可能通用,但具体做的事情和阶段差异还挺大的,而且RLHF对垂直领域的应用关联度非常强。"他补充。
"数据标注公司需要升级自己的人才梯队。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。"一位长期参与AI建设的专家如此预判,原因是,这样的创业者更可能合理地传递各行业客户的RLHF需求。
面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的"价格"。
36氪旗下官方公众号
👇🏻 真诚推荐你关注 👇🏻
数据标注公司能撑起国产ChatGPT野心吗
微信扫码关注该文公众号作者