Redian新闻
>
投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?|数智前瞻

投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?|数智前瞻

公众号新闻
在大模型和RLHF机遇面前,新建“产品线”的成本投入十分必要。


文|潘程 真梓
编辑真梓
来源数字时氪(ID:digital36kr)
封面来源|IC photo

数据标注,众星捧月

一个月来,与ChatGPT有关的故事还在持续上演,甚至已经蔓延到了数据标注领域。

这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。

这种全行业认可首先反映到资本层面,国内一二级市场的相关公司应声实现了新一轮估值高涨。

春节后A股的第一个交易日,上市公司海天瑞声就结结实实走出了第一个涨停板,此后连续12天其股价一路高歌,从81.6元飙升到244.8元,市值超过百亿,比此前翻了3倍还多。

尽管海天瑞声在公告中已经作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入”……但资本的热情不减,截止发稿海天瑞声的股价仍处于230.30元高位。

而在一级市场,B轮及以前的十余家早期项目集体迎来了接近100%增幅的高估值,其中不少人已趁机敲定新一轮融资。有业内知情人士向36氪透露,“目前,即便是刚成立1-2年的新公司,其价格已经很贵了。”但数据标注公司每天迎来送往的早期投资人仍络绎不绝,甚至有创业者为了见投资人只能将招聘时间安排在夜里23:30之后。

国内不少正在布局ChatGPT的文本公司,对数据的需求激增。

对标海外各家大厂的大模型与数据标注平台的合作,Google的LaMDA选择与美国供应商合作,预训练语料库大小为2.81T;Meta的BlenderBot3与亚马逊MTurk合作,预训练语料库大小为180B;OpenAI的ChatGPT/InstructGPT与upwork和Scale AI合作,虽然没有公布详细数据,但预计预训练语料库不会太小。

不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对ChatGPT背后的文本数据构建产生兴趣。

“这段时间,我们能非常明显的感受到来咨询合作的文本公司暴增,他们普遍都在关心文本怎么构建、数据集如何制作等问题。”某数据标注公司CEO表示,“一周时间,找过来的公司已经有大几十家。”

这种价值认可还在AI大厂中蔓延。

Forrester分析师卢冠男此前曾表示,“ChatGPT对训练数据的标注方式提出了新的思路,所以在训练数据的工程准备上,企业也需要摸索和改进。”

据知情人士透露,“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

数字标注在这种价值认可中,也试着摘掉“堆人力”“血汗工厂”的标签,逐步走向自我升级。在旷视研究院看来,“近年来随着大模型、自动驾驶等data hungry型应用的不断规模化,驱使数据标注行业不断向低成本、高质量、高效率进发,开发高效的采标一体化平台,采用AI辅助标注、human-in-the-loop、模拟仿真等技术手段提高标注质量和效率、降低标注成本,已成为数据标注行业的前沿阵地。”

大模型背后,数据标注被迫升级换代?

超乎寻常逻辑,ChatGPT能带火数据标注行业,并不是因为数据量激增。

纵使OpenAI积累了包括维基百科、专业论坛、论文、图书在内的众多高质量英文文本数据,纵使GPT-3拥有1750亿参数,训练语料超45TB,但本质上,大模型对低层次的数据标注需求很低。

这与其背后无监督(含自监督)、半监督的机器学习方式有关。

早前,实现人工智能的主流方法是监督学习。这种训练方式中,训练集的各项数据特征和目标都是人为标注的。也就是说,这种模式需要进行大量基础数据标注工作,且高质量的数据被“淹没”其中,很难从中摘出来。

图灵奖得主、CNN之父Yann LeCun曾将无/自监督训练比作“人工智能蛋糕上的樱桃”。

因为无监督学习不需要前期大规模的数据标注,在训练数据中,只需要给定输入,没有人工给出正确的输出,目的是让模型开放式地、自己学习数据之间的关系。

半监督学习则处于两者之间。在这种学习方式中,模型会尝试从未标记的数据中提取信息来改进它的预测能力,同时也会使用部分已经标注过的数据进行结果验证。

换句话说,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。

但与此同时,让ChatGPT更具有“人味”的关键——强人工反馈 RLHF,却带来另一种更高要求的数据标注需求。

相关分析显示,“在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。”

也就是说,让ChatGPT"更具人味儿"的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。

紧跟趋势的国内公司已意识到这件事。在36氪的观察中,最近围绕大模型、ChatGPT的一个必谈话题就包括RLHF。而在实践层面,一家重注大模型的大厂专家对36氪表示,"现在公司已有上百人都在做强人工反馈相关的事情。"在他的眼中,不少同行同样对RLHF深度布局。

按照常理,RLHF应该完全属于数据标注公司的业务范畴。但如今一些有财力也看重这一需求的AI公司,也就是数据标注公司的客户,很可能在自己搭建、重组团队。

原因或许出乎意料——RLHF,可能是传统数据标注模式难以满足的需求。

图注:OpenAI开展RLHF方法的三步骤

前文提到,在开展RLHF之前,大模型的训练需要海量无标注数据以获得"基本的感知能力"。

这对数据标注公司提出了第一个创新需求——利用已按各类场景被标注、被清洗完善的数据集进行训练,成为刚需。而在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主,由于缺少自有数据很少有出售精准数据集的服务。

在「拓元智慧」王可泽的观察中,数据质量不高,会影响到无监督学习的效果,最终也影响大模型的精准性。

“ChatGPT价值最大的一部分就在于其拥有一部分精细的、被标注的指令数据。”王可泽说,“通过与ChatGTP的交互,就能感受到其技术团队在数据量和数据种类方面花了很多心思。”

一些投资人也看到这一趋势。商汤科技投资总监王暘表示:“现在已经看到大家在研发和训练大模型时,都较倾向选用已经标注好的开源或公共数据集。同时,为了提升训练质量,对购买已经标注好的数据集也有需求。”

在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How,往往需要行业专业人士出手——这些不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。

也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。

“得先训练好标注同学,才能训练好模型。”这句来自AI从业者的网络调侃,并不是一句虚言。

中国数据标注公司,能力是否配得上未来?

新的需求已然清晰。

ChatGPT所代表的大模型,并不全盘需要传统的数据标注业务——为了精准性,它们看重数据集和RLHF所代表的人工反馈需求。

于是,一系列灵魂拷问出现在数据标注公司面前:如何才能快速提供可靠的数据集?又该如何升级人才架构?

首先针对数据集,目前国内多数传统数据标注公司并不提供这项业务。明确将“数据集”产品在官网提及的海天瑞声,产品集中在语音识别、语音合成、自然语言处理、计算机视觉数据集,垂直领域、热门场景下的高质量数据集仍相对稀缺。

另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。

36氪了解到,目前的确已有标注公司开始在内部撰写《人员提升教程》。他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。

但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。某数据标注公司运营负责人曾向36氪表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”

王可泽向36氪进一步拆解,如今的人工反馈还处于"初级状态"。在更精细化的场景中,AI需要很可能是一系列的深度专业意见。"比如在学术场景中,我们往往需要详细的指导,而不是简单的打分或者排序。"他打了个比方。

显然,这部分非常专业化的工作,远超数据标注公司的能力范畴。

但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。

比如,《时代周刊》报道显示,OpenAI在2021年底与Sama签署了三份总价值约20万美元的合同,雇佣普通数据标注员为数据库中有害的内容进行标记。再加上,虽然大模型的机会往往属于财大气粗的少数大厂,但却可能长出不计其数的新型AI应用。这部分应用的AI训练,也需要传统数据标注。

也就是说,新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务,也可以依靠AI应用的增多分到一杯羹。

这意味着,一段时间内传统数据标注的总需求大概率不会减少。而这种阶段,或许也是"时间窗口期"——数据标注公司能一边依靠传统业务积累营收,一边依托收入投入新业务建设。

这种经营模式对数据标注行业而言并不陌生。只不过,过去它们的自我迭代方向是利用自动化手段撕下"堆叠人力"标签。

一家成立近15年的数据标注公司告诉36氪,行业内平均每家众包平台上都有上万人,人员流失率却多在30%以上。为提升标注精准性和人员工作效率,这家公司会对AI辅助标注的研发投入重金。现在,AI辅助标注工具的研发已成为全行业都认可的投入方向。

而面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。

王暘认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。"虽然人才可能通用,但具体做的事情和阶段差异还挺大的,而且RLHF对垂直领域的应用关联度非常强。"他补充。

"数据标注公司需要升级自己的人才梯队。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。"一位长期参与AI建设的专家如此预判,原因是,这样的创业者更可能合理地传递各行业客户的RLHF需求。

面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的"价格"。

36氪旗下官方公众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

数据标注公司能撑起国产ChatGPT野心吗

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
未来3年,建筑业BIM去往何处,36氪和20位朋友聊了聊丨数智前瞻折叠屏iPad或配备碳支架/百度或将推国产ChatGPT/特斯拉否认将发布16万新车货运量增长超200%,快递包裹超21.3亿件,物流行业加速狂奔中丨数智前瞻国产ChatGPT「序列猴子」全网首测!在线体验不用等,画苏联马斯克超逼真智驾数据,制造了一场百亿美金梦 | 数智前瞻工资翻倍、跨省抢人,今年春节为何蓝领依然难招?|数智前瞻ChatGPT爆出插件功能后,我们准备了一份GPT应用构思攻略丨数智前瞻65岁知名浙商突发心脏病去世;ChatGPT被曝曾雇佣数据标注“血汗工厂”;华为再次回应:不造车丨邦早报网友用国产ChatGPT作图,这画风还真不是一般的牛!「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|36氪首发主机厂价格「卷」至冰点,风电下半场拼的是什么?|数智前瞻·全球技术图谱Scale AI:大模型还需要数据标注吗?千亿ChatGPT的狂欢和月薪3K的数据标注员一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准现在就能用!公测版本的“国产ChatGPT”,实力几何?ChatGPT走红背后:苦熬五年,三次AI路线迭代|数智前瞻「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|早起看早期OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词如愿国产ChatGPT扎堆,又是一场元宇宙式狂欢?纽芬兰岛 Irish loop 自驾一日游部署国产ChatGPT仅需6G显存!ChatYuan模型开放下载:业内首个功能型对话开源中文大模型国产ChatGPT又开源了!效果大幅升级,在手机上也可以跑我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词美国档案---赵廷杰集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布加州旧岁新年的春雨声ChatGPT长出狗身子!波士顿动力ChatGPT狗,说话、整理数据超级6唯艰ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!欧盟“黄金护照”即将取消,美国富人竞相上船7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇2022年度「建筑行业」8大影响力新闻与趋势|数智前瞻·2023展望
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。