作者 | 贾文娟 上海大学社会学院副教授
颜文茜 上海大学社会学硕士*
改写 | 孙一迪
责编 | 渠超男
1970年,奥地利宫廷中,发明家Wolfgang von Kempelen为取悦玛丽亚·特蕾莎女大公,宣称将表演一场史无前例的魔术。魔术内容是一种可以自动下棋的机器装置,被称作「The Turk」(土耳其行棋傀儡)。这台机器被雕刻为人形,身着土耳其长袍,坐在一个带有棋盘的木制橱柜之后,仿佛真的具有人类的智慧与生命。Kempelen宣称这台机器可以打败任何皇室成员,一位宫廷谋士应战,果然不到30分钟就被击败。而后的十年,Kempelen带着「The Turk」游离整个欧洲并取得了惊人的战绩,据传说他的手下败将甚至包括本杰明·富兰克林(Benjamin Franklin)和拿破仑。直到1857年,《国际象棋月刊》才发文揭露,赢过所有人的并非这台机器,而是藏在橱柜中的象棋高手。◎「The Turk」横截面示意图
图片来源:维基百科词条—土耳其行棋傀儡
2005年,亚马逊推出平台Amazon Mechanical Turk。彼时,亚马逊正在将CD碟片引入自家的产品线。亚马逊希望通过该平台,借助小额的经济激励招募网友为其工作,帮助检查上架的CD专辑名是否正确,并审核封面是否适合未成年人浏览。这种借助人的认知能力作为生产工具的方式,如今正在成为一项超过千亿规模的商业模式。2022年,中国人工智能核心产业规模超过4000亿,企业数量超过3000家,从事数据标注的劳动人口超过千万。数据标注员就是这个时代,藏在AI背后的“象棋高手”。
Easy on Humans,
Hard on Bots
(对人来说简单,
对机器却困难)
随着时间的推移,大众对于机器越来越“智能”的现实早已习以为常。但对于机器是如何借助人的“智能”被设计、被训练与被驱动却知之甚少。
“人工智能”即机器模仿人的方式进行认知,这种认知训练需要依靠大量可被机器识别的数据不断地进行“喂养“。例如,人工智能并不能天然识别出图片上出现的人脸,只有当人脸的关键点位被按照机器程序设定的方式标注出来之后,计算机才能建立起对人脸的认知。数据标注师的工作,就是按照特定的方式及规范在原始数据上标注出需要被机器学习的数据内容。
依据算法应用途径的不同,数据标注工作的类型也是多种多样的。常见的类型有分类标注(从既定的标签中选择数据应当对应的类型)、标框标注(在图片中框选出特定目标的位置)、区域标注(标注图片中某个特殊区域)、描点标注(如人脸中的关键点位标注)和判断类标注(如判断语音素材的表意是否一致等)。而这些工作都无一例外会应用到我们作为人的“默会知识”。默会知识的概念由英国哲学家波兰尼(Michael Polanyi)于1958年在《个体知识》一书中提出。默会知识指一种通过实践、经验而获得的知识,难以用语言、文字或数字进行表达。其本质是一种理解力、领悟力和判断力的结合,即人的认知。例如,人类擅长从模糊的照片中挑选出特定的物体,因为人类有一种方法可以将事物与其存在的背景进行区分。这种能力被应用于区分人和机器的“验证码”,虽然看起来都是极为简单的问题,但却需要调动人的“默会知识”,而这一点对机器来说却非常困难,这也是验证码体系成立的前提。为数据打上标签是一种只需培训很短时间就可以上手的简单劳动(一般半天-1天,访谈中最多的为2天),标注员不需要掌握任何ICT(Information and Communication Technology)专业知识。在作者进行田野调研的团队中,标注员常常自嘲“这个工作小学生都可以做”。某种程度而言,数据标注员在劳动过程中的作用与流水线工人、麦当劳服务员是相似的。区别在于,劳动者不再是机械化流水线的一环,而是成为帮助机器分辨和接受外界信息的感觉器官。管控认知劳动的
三个步骤:
标准化、
反馈与认知加速
在工厂生产中,提升劳动率的核心主要集中在提升人工的机械劳动效率,以获得与机器更高的配合速率,因此标准化的劳动规范与管理能最大程度实现这一效果。但是,当人的智能成为成产工具,传统的管理方法则日渐失效,因为人类的认知方式千差万别。具体到数据标注工作,正因为计算机无法识别现实的复杂可能性,才需要劳动者调动“默会知识”来补充机器认知的不足,所以对标准化的过分强调甚至可能会阻碍劳动者对认知的充分发挥。作者及研究团队在进行田野调查中发现,认知劳动管理的核心在于推动劳动者认知模式的转换——从人类的自然认知模式转化为计算机需要的产生式认知模式。因此,尽管数据标注工作的难度并不高,但提升劳动效率却远比想象中困难。◎数据标注员工作场景
图片来源:YAN CONG FOR THE NEW YORK TIMES
从田野调查的实践来看,推动认知模式的转变,需要经历以下几个步骤:未经训练的数据标注员,头脑中持有的都是关于外在世界的自然认知,并呈现出模糊、含混、杂乱等特征。以哆啦A梦的图片为例,可能会产生猫、机器人、机器猫等不同判断,难以满足算法模型需要的“标准数据”。因而,推动标注员认知模式转化的首要环节就是认知标准化。管理方通过两种不同方式来完成,首先是用书面文件约定《标注细则》,设定一定的认知标尺。通过事无巨细的流程标注来指导标注员们的具体劳动。但文件不能穷尽现实中的所有情况,而针对文字内容的理解本身也存在不小的认知差异。基于此,管理方又进行了标注培训。通过标注示例的演示,来统一认知。但管理方对培训却并未报有过高的期待,单次、单纯的讲解培训并不能使标注员完全消化和掌握细则,还需要在实践中逐步练习。当标注员们领会了管理方的要求后,他们就要开始在实践中调整自己的认知模式。但这并非是由意愿能决定的活动,因而及时的反馈(调研显示,一般为培训后的3-4天内)就变得重要。管理方不仅要求标注员在工作中及时反思,发现认知偏误,还鼓励其随时与管理方进行沟通,反馈出现的问题。此外,管理方也鼓励标注员同事之间就工作中的问题提出讨论。在及时反馈与讨论中,标注员们的认知行为逐渐走向统一。而在劳动中,对于标注员的错误,管理方也会以略带惩罚性的公示或批评等形式警示犯错者的同时,也一同提醒并修正其他标注员们的认知。基于反馈与沟通在推动认知改变过程中的重要意义,被调研团队的管理方也提到了在招聘标注员时,善于沟通和表达的候选者往往更受欢迎。认知劳动的推进是个繁复、波折的过程。在认知标准化和认知反馈的过程之后,还需要认知加速来推动标注员最大程度提升认知系统的转化。在作者进行调研的团队中,认知加速主要依赖以下几个策略。第一,是标注员全面遏制自身主观认知,抛弃对标注细则和计算机逻辑的所有犹疑。有标注员在访谈中提到,在这一阶段,当面对自己不能非常理解的矛盾时,她会立刻进行自我遏制:“不要想那么多!”,有经验的标注员也会给出建议“你不要总想着自己在图片上看到了什么,要根据规则去想机器能识别到什么”。第二个策略是标注员通过持久而快速的重复操作,加快自身的认知反应。“过一段时间就会发现,它就是一个简单的重复性劳动,一定要耐得住性子,不要想太多。”团队中速度最快的标注员这样总结自己的心得。在认知心理学理论中,认知行为的不断重复能够有效刺激动物的认知反应速度,强化学习行为,并将一系列原本需要思考才能实现的知识与技能转变为惯性下的无意识操作。该策略与这一理论不谋而合。此外,管理方还通过渐进地增加标注额度等办法,促进提升团队的整体速度。在人工智能数据工作的场景下,管理者从对劳动者身体层面的物理控制,过渡为推动认知层面的思维转变。对管理者而言,一方面要借助人类的自有认知,让其发挥“默会知识”,另一方面又要规范劳动者的认知,使其按照机器需要的方式进行。因为管理方需要在这两者间寻求平衡,所以认知劳动者所面对的劳动管理与控制也不再僵硬、刻板,而愈加呈现出灵活、深入的特征。劳动异化与隐蔽的对抗
在日复一日的机械重复和相对廉价的经济收获中,大多数进行简单劳动的数据标注员都或多或少产生了获得感的缺失(作者所调研的标注团队中,56%为外包员工,工资4000~5000/月;30%为实习生,酬金100~200/天)。“做这个是学不到任何技术的,每天都做一样的活儿,长期这样不动脑,脑子会生锈的。”这是一种典型的感受,在这种情况下,劳动者们往往会把这份工作当作特定时期的过渡,而不愿投入过多热情。同时,他们也会采取偷懒、“摸鱼”等方式来争取更多自由的空间,以对抗一种作为“机器感觉器官”的异化体验。而面对管理方严苛的定额要求时,他们也会采取联合限制产量等更加隐蔽、柔和的对抗方式。而来自产品经理、算法程序员、标注组长的三方共同管理模式,也在一定程度上会对标注员们的工作带来困扰。高流动率是数据标注行业人员管理所面临的另一个重要难题。管理者虽然能在短期内获取尽可能多的剩余劳动,但很难从长期角度阻止劳动者的主动逃离。为应对这些问题,我们可以看到近年来数据标注行业雇佣的劳动力群体正在从一二线城市向经济欠发达地区转移。虽然可以一定程度上依靠经济利益吸引一部分较为稳定的劳动力,但劳动者群体普遍教育背景的降低也会带来认知转化管理难度的增加。人类学家玛丽·L.格雷(Mary L. Gray)和计算机科学家西达尔特·苏里(Siddharth Suri)在《销声匿迹:数字化工作的真正未来》一书中提到了这样的观点:自动化的最大悖论在于,使人类免于劳动的愿望总是给人类带来新的任务。而在技术走向自动化的漫长历史中,很关键的一点是对临时劳动力的依赖。今天的人工智能数据标注员群体,就是当下发展中临时劳动力的最新迭代。在这一前沿,临时工的高峰和低谷不断转换,这重新定义了人类和机器的关系。而在人与机器的动态关系中,如何掌握身为人的主动权,对抗机器异化是每一个劳动者时刻面对的现实,也是管理者应当在各方平衡中需要谨慎面对的问题。《认知劳动与数据标注中的劳动控制——以N人工智能公司为例》原文刊载于《社会学研究》2022年第5期