数据标注员，困在大模型里｜深氪Lite

公众号新闻

2023-09-25 16:09

撰文期间，我们接触的标注员很多已离职，一个女孩干了两个月，赚不到三千块。

文｜林炜鑫

编辑｜苏建勋

来源｜智能涌现（ID：AIEmergence）

封面来源｜IC photo

在一家互联网大厂做数据标注的小颜，时常在公司感到一种隔绝。

小颜的工位，跟产品经理、程序员们挨在一起，他们能享受相同的福利：同样的工牌、苹果电脑；随时可以去健身房，或去太空舱睡一觉。

但小颜能察觉到，作为数据标注员的她和其他同事，分属于“两个世界”。

尽管大家是一个团队，但每天的早会，没人会喊上标注员，小颜只能偷偷摸摸在门外看。有一回，有人推来一车台灯，是团队正在做的AI产品样机，程序员们围了上去，很兴奋，拿在手里把玩。标注员们则坐在工位忙自己的事，毫无波澜。“他们不知道那个产品，就是靠标注的数据做出来的。”

入职时，小颜所在的公司正在开发一款教育类AI产品，需要标注大量数据以训练AI。公司买来堆积如山的中小学习题册，小颜的工作是拍下每一道题，然后在电脑上对这些题目拉框，做标注。

同样是为AI工作，程序员清楚地意识到自己的工作价值，享受着算法不断进步带来的快感，但几乎没有标注员会觉得，正是自己的劳动创造了AI。

人工智能的进步离不开数据标注。近几年自动驾驶的发展，带动了数据标注的市场。据德勤的报告显示，2022年自动驾驶领域的标注需求占整个AI下游应用的38%，预计到2027年，比例将上涨到52%。

今年大模型兴起，给数据标注行业再添一把火，大量基于大模型训练场景的订单朝数据标注公司飞去，看上去，数据标注这个枯燥的生意，再次注入活力。

一些技术公司走得更前列，正在尝试使用AI自动合成数据，供AI训练。合成数据是基于少量真实数据，用AI无限生成、无需标注的数据，而不再依赖人工标注。在自动驾驶领域，合成数据可以覆盖一些极端路况，比如行人突然闯入马路等。

在他们的畅想中，今后合成数据将取代人工标注。没有技术、只靠人力的标注公司将被逐步淘汰。一项数据显示，国外用于人工智能的基础数据中，已有70%是合成数据，这条路正在被验证。

对数量庞大的数据标注员来说，上述内容并不是好消息。然而36氪接触的一些标注员，还不清楚ChatGPT到底是什么，他们的反应像是第一次听说这个名词。

小颜说，标注员是一个随时可以被切掉的尾巴。唯一的悬念是，这一刀何时彻底落下。

训练机器的标注员们，觉得自己更像机器

小河的专业是英语系，大四那年在一家大厂实习。第一天上班，办公室在一栋写字楼里，宽敞、干净，完全符合她对互联网公司的想象。没多久她意识到，面试所了解的工作内容——“整理、分类公司语音数据”，其实就是数据标注。

后来小河承认，如果知道那是给AI打工的起始，她会立即走人。

组里有6个实习生，都是名校外语系的同学。一个女组长每天分派任务。有时是一堆英语音标，小河的任务是区分出英音和美音；有时是一份Excel，点开，满眼都是数据，往下拉，足足有一万多条。

“感觉像爬一座山。”小河说。

做过最多的“项目”，是中学生的口语标注。标注员习惯把工作说成项目，一个项目接着一个项目。小河一天要听200条带浓重口音的录音，每条两分钟。听到一般疑问句，打1分；听到特殊疑问句，打2分；都没听到就是0分。为了防止泄密，只能用办公室的有线耳机，小河听得耳朵酸胀，“不由自主的烦躁”。

她经常听到录音出现脏话。有的小孩口语没讲几句，就开始飙国骂。还有一次做地图导航的项目，有人不由分说，在录音里谩骂。“我不知道为什么有人会有那么大的怒气。”

小河说，你不能太当回事，只能给这条录音打个标“无意义”，然后翻篇，继续听下一条。

“像个机器一样”，几乎每个标注员都会这样形容自己。标注不费脑子，一位山东的标注员说，做过最困难的项目是指纹标注。她拿到一堆不知道是谁的指纹图（有些还很模糊），需要沿着指纹的边缘一点点拉框。“那天回家后，闭眼都是指纹。”

许多项目要求标注员严格保密，但标注员也不关心项目用途是什么。上班期间，标注员被要求交出手机，放在墙上的挂袋里。只有接到电话时，才允许他们取回手机。

多数标注员经历过从生疏到熟练，从新鲜到乏味的过程。项目的前期是最有趣的，那时标注规则还不完善，他们经常碰到争议地方，就会互相讨论甚至争论，气氛很热闹。到了中后期，规则差不多定型，就只剩下重复的、机械的劳动，人就会陷入无意义感。

一位标注员说，这是一份“没有头脑的工作”。

江西抚州，当地职校学生在做数据标注；图源：IC photo

上海大学教授贾文娟做过数据标注的田野调查，她认为数据标注不是脑力劳动，也不是体力劳动，而是认知劳动，“人出售的是自己的认知”。黑色幽默的地方是，我们想让机器变得更像人，同时却把人变得像机器。换句话说，抛开人的常识，像机器人那样思考。

而一旦标注员开始思考“我为什么要做这个”，就意味着他离辞职不远了。

郑委是一家数据标注公司的老板，他直言，留不住人。公司最好的光景，也不到20人。新员工经常只能坚持半个月，不少人第一天来上班，第二天就跑了。他只好不停降低招人要求，到最后，他感到“不是我在选人，而是人家在选我”。

他不知道怎么挽留那些要走的人，“你留在这儿会越来越好，这种话其实我自己都不太相信。”郑委告诉36氪。员工流失最终压垮了公司，只剩下两名标注员的时候，他决心解散团队。没过多久，ChatGPT掀起了新一轮AI浪潮。

大模型兴起，对数据标注本是利好，然而也加剧了标注团队的内卷。

提起接活，小代说，现在市场上80-90%的标注项目，单价被压得非常低，“因为中间的转包商太多了”，“都想赚差价，不想真的干活”。他在众包平台做过两年标注员，今年创业，组建自己的标注团队。

数据标注的利润不高。以自动驾驶的2D拉框来说，大公司的派单价格是一毛一个，接活的标注团队是8分一个。“现在降到5、6分。”小代说。他算了一笔账，如果低于8分，他只能亏本。

自动驾驶标注；图源：appen官网

为了生存，小代大部分时间都在找项目，混迹于各种平台、贴吧。项目真真假假，不靠谱的居多，小代吃过亏，有一个项目的钱，等了8个月还没到账。

后来，他先当兼职标注员，试标、结账没问题，才会让团队接活。有回听说平台半夜3点会放一批项目，他提前定闹钟去抢单。

人员流失、单价压低、回款不稳定，像肿瘤一样，拖垮了这行业里的多数小公司。

没有一个标注员不嫌弃这份工作，他们挣不到钱，更看不到晋升空间和发展机会，陷入漫长的沮丧和失落。

就在写这篇稿子的过程中，36氪接触的标注员大多都离职了。一个女孩说，她一共做了两个月，到手工资，只有不到三千块。

内卷的标注员：本科率100%

过去，数据标注的门槛较低。在山东、山西、河南、贵州等地，许多数据标注公司招募了大量廉价劳动力。最常见的包括宝妈、残疾人、职校学生，只要掌握电脑的基本操作，就能进入这个行业。

来到大模型时代，一场关于数据标注的洗牌和淘汰，正在候选人中悄然进行。

研究人员发现，训练数据的质量对模型性能有非常大的影响。比起数据量，拥有更高的数据质量，模型的改善效果就更明显。为了把控数据质量，一些AI公司组建了自己的标注团队，第一步就是提高入行门槛。

最明显的，标注员的学历开始卷起来。

今年四月，一家头部大模型厂商建立了数据标注基地，招募的第一批标注员，本科率达到100%。公司负责人解释，大模型数据涉及的知识面广，评判标准复杂，非常考验标注师的语言理解能力和逻辑推理能力。

小王刚从大学毕业，回老家找工作时，偶然刷到这个数据标注基地的招聘。于是他参加了面试，顺利通过。基地给他发来一份长达30万字的培训材料，只有通过培训考试，才能正式上岗。

标注员每天都在做题。新人一天40道题，熟练工则是70-80道。后台系统给每个人发放题目，大多数是真实用户和大模型的对话记录。用户的问题囊括四海，甚至千奇百怪：这三款手机哪个更好？鸡蛋好吃还是扭蛋好吃？成功人士的标准是什么？林黛玉为什么要打白骨精？

大模型会有好多个回答，而小王的工作就是阅读每一个回答，挑出错误，并按照质量逐一打分，5分是满分，1分最低，而3分以下的答案，还需要划分错误类型。答非所问，直接给最低分，要是碰到敏感问题，则不打分，判为“其他”。

排序、打分、评估，这些略显复杂的标注环节，正是所谓的RLHF（Reinforcement Learning from Human Feedbach，即从人类反馈中强化学习），目的是为了让大模型与人类价值观、思维方式不断对齐，更加可用。OpenAI训练ChatGPT的过程中采用了RLHF，取得了显著的效果。

图源：IC photo

和过去的数据标注相比，大模型的标注规则更加主观。一位算法工程师在面试标注员时，会问对方这样的问题：“如果你是企业领导，面对孙悟空、猪八戒、唐僧、沙僧这四类员工，你会更倾向于录用谁？”

没有标准答案，他说。这类问题是为了考察标注员有没有逻辑思维能力。

行业对人才的需求变得迫切。一家名叫恺望数据的初创公司，正在与高校合作，培训大批高校学生标注员。CEO于旭说，公司去年打造了“恺望数据学院”，已培训50所学校，超过1500名学生从事数据标注。

当小王给大模型的回答打分时，他经常需要做一些事实核查，工作量全凭运气。有一回碰到一个题目：宝马3系和奔驰C系哪个比较好？大模型分别罗列了两款车的40个参数，每个参数都需要小王查验。那道题他足足花了半小时。

做标注有一段时间，小王发现他打的分很少超过3分，“AI的回复还没有到能让我觉得很满意或者很出彩的程度”。他记得有道题是“蓝牙耳机坏了，是去看牙医还是看耳机厂商”，显然是钓鱼问题，但AI的回答让他眼前一亮，“它说是去修理，而不是去医院”。

小王对这份工作感到满意。他每月的底薪是1800元，全勤奖200元，房补200元，算上绩效，一个月可以拿到4000元。他说，在当地这个收入算中上水平。他还拉上了自己的发小，两人坐在相邻的工位。

与小王同期培训的大学生大约20多人，没两天就跑得差不多，只剩两三人。

但我们不必为公司担心，这里永远不缺大学生。一个CTO向36氪吐露了真相：你去看看现在大学生的就业状况嘛。

最想淘汰人工标注的，不是AI

必须承认，关于数据标注的报道有很多，人们达成的共识包括，这份工作是“互联网的流水线”，很难长期做下去，以及人工标注最终会被AI取代。

过去一个月，我们花了大量时间和算法工程师、AI公司交流。虽然没有刷新上述共识，但能隐隐感到，最想淘汰人工的或许不是AI。在AI真正动手之前，那些掌握最先进技术的人已经举起镰刀。

在技术世界，数据的重要性不言而喻。算法工程师小段说，如果一个AI业务没有标注过的数据，他们写出再好的算法，也会是一盘散沙。标注数据越多越好。薅尽标注员羊毛，是一件稳赚不赔的买卖。

有时，标注员们花四五天做完的数据，算法一小时就能跑完。小段供职于一家互联网大厂，部门预算充足，养了几名全职标注员。“我们尽量不想让标注员闲着。”他说，“领导会看周报，如果觉得任务不多，就让我们多投放一些任务给他们。”

一位标注员告诉36氪，虽然共事的程序员嘴上会说，每个工种都有存在的价值，但仍会不经意间流露出一丝轻视。“当然了，这群人本身就是技术至上。”标注员自我安慰道。

技术的进步速度远超所有人预期，来到大模型时代，数据质量将直接影响到模型的性能。弄明白这一点，一些AI公司毫不犹豫地告别了数据标注外包商。

“拿回来的数据质量太差，基本没法用。”一家AI公司的CTO说。他们的核心业务是做AI生成视频，为此自研了一款模型，能够无限量生成电商产品视频。为了训练模型，他们特意招了50名大学生做数据标注。

如果涉及医疗、金融、计算机等专业领域，大学生也很难被信任。国内一家互联网大厂除了自建标注基地，还会花钱请专业人士来标注。尽管专业人士在标注行业的占比仍然很小，但作用相当明显。比如，一个关于社保断缴的问题，交给熟悉政府文件的专业人士，最让人放心。

一个公开的秘密是，早在ChatGPT走红前，OpenAI就组建十几位博士生来“打标”。八年时间，OpenAI光是训练模型就花了10亿美元。

今年五月，美国一家数据公司开始招聘特定领域的专业人士。这些高级标注员的报酬不再是白菜价，比如法律数据的标注时薪是45美元，诗歌则是25美元。

不过，做标注的无论是蓝领还是白领，在一些AI公司的眼里，都是想要节省的成本。和这些公司交流时，36氪频繁听到一个词：降本增效。

最常见的办法是，利用AI进行自动化标注。一家数据公司表示，自动化标注的比例已经达到70%以上。

而算法工程师小李和同事正在做更加前沿的尝试：只要以一小部分的真实数据为蓝本，通过生成式AI技术和一系列算法，就能合成高质量的、可供训练的数据。换句话说，完全不需要人了。

“我们合成数据的售价比人工标注的要便宜一点。”小李说。

合成数据目前主要用在自动驾驶和机器人领域。小李说，当ChatGPT出来后，他便意识到标注数据可能走不通了，最后都要用合成数据。OpenAI创始人Sam Altman也有类似的看法：“合成数据是解决大模型数据短缺的最有效办法”。

图源：IC photo

初创公司光轮智能主要做自动驾驶和机器人领域的合成数据。“自动化标注的终局就是没有标注，”CEO谢晨说，“大部分标注公司没有看到那么长远。”

谢晨向36氪提到，团队有名同事，此前在一家主机厂做自动化标注，攻克了更复杂的4D-BEV标注。这是业界领先的标注工具，在3D空间中以时间为第四个纬度进行标注，提升自动驾驶系统性能。今年他决心放弃自动化标注，主动找到谢晨，最后入职了光轮智能。

这名同事就是小李。他表示，生成式AI的出现一度让他非常焦虑，但看到合成数据后，他重新兴奋起来。

他的工作目标之一就是“取代（标注）这行业的人”，但又不好意思把话说绝，“很可能就在短期内，可能一两年。”

最后，让我们回到标注员的世界。这里几乎感受不到由技术飞快发展而产生的焦虑。这里只有琐碎、重复的烦躁，还有一些天真的幻想。

大学生小王仍然在老家训练大模型。我们最近一次聊天，他说，这份工作是一个进入人工智能领域的机会。公司为他们设定的晋升途径是，标注员到质检员、培训师，再到主管，最后是项目经理。小王的目标是当上主管，然后跳槽去一个离AI更近的岗位。具体是什么，他还不知道。

与有雄心的小王相比，多数标注员对AI没有什么兴趣。有个女孩给出解释，“不太关注高科技。”她做了两年标注，已经是资深员工，不久前晋升为质检员。对她来说，标注工作简单、稳定，“没有精神内耗”，偶尔还能摸鱼。AI搅动科技圈的这一年，她的日子平静如水。

为数不多的变化是，公司提供的标注工具中多了一个对话机器人。公司告诉大家，在标注时碰到不懂的问题，直接向机器人提问就行，节省时间。效率提升很快，她告诉36氪，之前拉框，一天最多做完五六百个，现在能做七百多。

“多亏了那个机器人。”她说。还没人告诉她，那叫ChatGPT。

应受访者要求，文中部分人物为化名。36氪作者邓咏仪对文章亦有贡献。

36氪旗下AI公众号

真诚推荐你关注

来个“分享、点赞、在看”👇

数据标注员，困在大模型里

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章