Redian新闻
>
ChatGPT背后的标注人:在非洲只管「鉴黄」,时薪不到两美元

ChatGPT背后的标注人:在非洲只管「鉴黄」,时薪不到两美元

公众号新闻
机器之心编译
选自《TIME》
最先进的 AI 技术,背后还是原始的劳动。


ChatGPT 是去年热度最高的科技创新之一,这种强大的人工智能几乎可以生成任何主题的文本,既可以与人对话聊天,也会编程、参与考试、写诗搞艺术,在上线一周的时间内就拥有了上百万用户。


在 ChatGPT 一炮而红之后,OpenAI 现在正在与投资者谈判估值 290 亿美元的融资,其中微软要投 100 亿美元。如果这次融资成功,OpenAI 将成为世界上最有价值的人工智能公司之一。


然而成功的故事不止有技术天才和资金,美国《时代》杂志最近的一项调查发现,为训练 ChatGPT,OpenAI 使用了每小时收入不到两美元的肯尼亚外包劳工。


在 AI 模型训练过程中使用人工标注非常重要,特别是对于 ChatGPT 这样的语言模型,如果不加规制,AI 经常会出口成脏,性别歧视或者发表种族主义言论。这是因为人工智能接受的是从互联网上收集的数千亿个单词的训练。


庞大的训练数据集是 GPT-3 拥有强大语言能力的原因,但也可能是它背负的最大诅咒。互联网在拥有知识的同时也存在恶意和偏见的内容,没有什么清除训练数据负面部分的简单方法,即使是一个由数百人组成的团队也需要数十年的时间才能手动浏览庞大的数据集。只有通过建立一个额外的人工智能驱动的安全机制,OpenAI 才能控制这种危害,生产出适合日常使用的聊天机器人。


为了构建这样的系统,OpenAI 借鉴了 Facebook 等社交媒体公司的做法,思路很简单:构建一个额外的 AI 模型,向它提供带有暴力、仇恨言论等标签的示例,让它学会识别有害内容。该检测器会被内置到 ChatGPT 中,以检测输出内容是否反映了其训练数据的问题,并在它到达用户之前将其过滤掉。它还可以帮助人们给未来 AI 模型的训练数据集中清除有毒文本。


为了获得这些标签,OpenAI 在 2021 年 11 月开始向肯尼亚的一家外包公司发送了数万个文本片段。其中大部分文本似乎是从互联网最黑暗的角落提取的。其中一些以生动的细节描述了各种情况。OpenAI 在肯尼亚的外包合作伙伴是 Sama,这是一家总部位于旧金山的公司,在肯尼亚、乌干达和印度雇用员工为谷歌、Meta 和微软等硅谷客户标记数据。


Sama 将自己定位为一家「有道德的」AI 公司,并声称已帮助超过五万人摆脱了贫困。



根据资历和表现,Sama 代表 OpenAI 雇用的数据标注员的实得工资约为每小时 1.32 美元至 2 美元。对于这个故事,时代周刊审查了数百页 Sama 和 OpenAI 的内部文件,包括员工的工资单,并采访了参与该项目的四名 Sama 员工。出于对生计的担忧,所有人都不愿透露姓名。


为 AI 做标注是个体力活,此前这种工作时而会被媒体报道,在模型体量不断膨胀的当前,为 ChatGPT 进行标注的故事让我们得以感受到 AI 领域另一面的现状,它在使 AI 技术能为公众使用的过程中发挥了至关重要的作用。


「尽管这些数据人员发挥了基础性作用,但越来越多的研究揭示了这些工人面临的不稳定工作条件,」OpenAI 所属的 AI 组织联盟 the Partnership on AI 表示。「这可能是在庆祝技术效率提升时试图隐藏 AI 对庞大劳动力的依赖的结果。」


OpenAI 没有透露与它合作的外包商的名字,我们也不清楚除 Sama 之外,OpenAI 是否与其他数据公司在此项目上合作过。


在一份声明中,OpenAI 的一位发言人证实了肯尼亚的 Sama 员工为其正在构建的一种检测有害内容的工具做出了贡献,且该工具最终被内置到 ChatGPT 中。该声明还表示,这项工作有助于从 ChatGPT 等工具的训练数据集中删除有害数据。「我们的使命是确保通用人工智能造福全人类,我们努力构建安全可用的人工智能系统,限制偏见和有害内容,」发言人表示。「对有害『文本和图像』进行分类和过滤,是减少训练数据中包含暴力和色情内容数量以及创建可检测有害内容的工具的必要步骤。」


虽然目前科技领域因为经济低迷预期增长速度有所放缓,但投资者仍在竞相向 AIGC(智能内容生产)投入大量资金和精力,OpenAI 是科技行业中无可争议的领导者。人们乐观地估计认为,计算机生成的文本、图像、视频和音频将改变无数行业的运行方式,从而提高从创意艺术、法律到计算机编程等各个领域的效率。 


然而,数据标注员的工作条件揭示了这幅未来图景的阴暗面:尽管 AI 实现了突破,但它往往依赖于低价的人力劳动,而这些劳动往往具有破坏性和剥削性。即使他们的工作为价值数十亿美元的行业做出贡献,这些隐形工人仍然处于边缘地位。


一位负责为 OpenAI 阅读和标记文本的 Sama 工作人员表示,他在阅读了一些需要标注的负面内容后反复出现幻觉。「那是一种折磨,」他说。「整个星期你都会读到很多这样的内容。到周五的时候,你会因为想那张照片而感到不安。」这项工作的创伤性最终导致 Sama 在 2022 年 2 月取消了其为 OpenAI 所做的所有工作,比计划提前了八个月。


Sama 签约的合同


媒体调查显示,OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同,为性虐待、仇恨言论和暴力的文本描述添加标签。三十余名工人被分成三个小组专注于每个主题。三名员工告诉时代周刊,他们预计每 9 小时轮班阅读和标记 150 至 250 段文字。这些片段的范围从大约 100 个单词到 1000 词不等。四名被采访者均描述了这项工作在精神上留下的伤痕。虽然他们有权参加「健康」顾问的会议,但所有人都表示,由于工作效率的高要求,这些会议没有帮助而且很少见。


Sama 发言人在一份声明中表示,员工只能参加小组会议的说法是「不正确的」。发言人说,员工有权与「受过专业培训并获得许可的心理健康治疗师」进行个人和小组会议。发言人补充说,这些治疗师随时都可以联系到。


合同规定,OpenAI 将向 Sama 支付 12.50 美元的小时费率,这是该项目的 Sama 员工每小时带回家的工资的六到九倍。据 Sama 三名员工称,代理人是最初级的数据标记员,占三个团队的大部分,他们的基本工资为每月 2.1 万肯尼亚先令(约 170 美元)。由于工作的明确性,他们每月还会收到价值约 70 美元的奖金,并会因达到准确性和速度等关键绩效指标而获得佣金。 


一名工作 9 小时轮班的代理人预计税后每小时总收入至少为 1.32 美元,如果超过所有目标,则最高可达每小时 1.44 美元。质量分析师 —— 更高级的标签员,他们的工作是检查代理人的工作 —— 如果他们达到所有目标,他们每小时最多可以赚 2 美元。(肯尼亚没有普遍的最低工资标准,但当时这些工人受雇在内罗毕,最低工资是每小时 1.52 美元。)


在一份声明中,Sama 的一位发言人表示,工人被要求每 9 小时轮班标记 70 篇文本段落,而不是最多 250 篇,而且工人税后每小时的收入在 1.46 美元到 3.74 美元之间。该发言人拒绝透露哪些职位的薪水会达到该范围的最高水平。该发言人补充说:「该项目 12.50 美元的费率涵盖了所有成本,例如基础设施费用,以及员工及其全职质量保证分析师和团队负责人的工资和福利。


OpenAI 发言人则在一份声明中表示,该公司没有发布任何生产力目标,Sama 负责管理员工的薪酬和心理健康规定。该发言人补充说:「我们非常重视员工和承包商的心理健康。我们之前的理解是 Sama 提供健康计划和一对一的心理咨询,员工可以选择退出任何工作而不会受到惩罚,暴露露骨内容是有限制的,敏感信息将由经过专门培训的员工处理。」


在日常数据标记工作中,有时会出现边缘案例,这表明教机器理解细微差别的难度很大。


OpenAI 与 Sama 的关系是如何破裂的?


2022 年 2 月,Sama 和 OpenAI 开展了一项合作,但合作过程并不愉快。起初,Sama 为 OpenAI 的一个单独项目进行试点工作:收集色情和暴力图像(其中一些根据美国法律是非法的)提供给 OpenAI。其中,标记图像的工作似乎与 ChatGPT 无关。


OpenAI 发言人没有具体说明该公司从 Sama 寻求这些图像的目的,但 OpenAI 在一份声明中表示标记有害图像是让其 AI 工具更安全的「必要步骤」。 


根据《时代周刊》报道,一份账单文件显示 2 月 Sama 给 OpenAI 交付了一批 1400 张图像的样本,OpenAI 共向 Sama 支付了 787.50 美元。


但很快,Sama 就取消了为 OpenAI 所做的所有工作 —— 比合同约定的时间提前了八个月。Sama 在一份声明中表示,其为 OpenAI 收集图像的协议中没有提及任何非法内容,而且是在工作开始后,OpenAI 才向 Sama 发送了「附加说明」,其中提及「一些非法类别」。Sama 公司决定立即结束这项「图像分类」合作,并取消所有剩余的 OpenAI 项目。


今年 1 月 10 日,Sama 宣布将取消所有涉及敏感内容的剩余工作。此外,该公司还表示不会与 Facebook 续签价值 390 万美元的内容审核合同,这将导致内罗毕大约有 200 个工作岗位流失。 


Sama 公司在一份声明中表示:「在与我们的全球团队进行多次讨论后,Sama 决定退出『自然语言处理』及其内容审核工作,专注于构建计算机视觉数据标注解决方案。过去一年,我们一直在与客户合作过渡这些业务,并将于 2023 年 3 月完成所有变更。」


然而,人工智能系统仍然需要人工标记数据,至少目前是这样。就像人工智能伦理学家 Andrew Strait 最近在推特上说的:「ChatGPT 等生成模型并不神奇,它们依赖于大量的人力供应链和搜集数据,其中大部分数据是未经授权和未经同意使用的。而 OpenAI 并没有解决这些严重的基础问题。」


参考内容:

https://www.reddit.com/r/MachineLearning/comments/10gtruu/n_openai_used_kenyan_workers_on_less_than_2_per/

https://time.com/6247678/openai-chatgpt-kenya-workers/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何看“艺术家”这个名词?深入浅出,解析ChatGPT背后的工作原理ChatGPT背后的开源AI框架Ray,现在值10亿美元ChatGPT背后的男人:8岁会编程、19岁当老板;法意计划向乌移交远程反导系统;美媒称拜登拟重组经济团队|一周国际财经我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词经观社论 | ChatGPT背后的创新焦虑周小平:ChatGPT背后的“世界网络东林党”现形,史上最强的新型阶级固化工具诞生,文明永夜将至~ChatGPT背后的35岁神秘教母,一手推火这个神级AIChatGPT背后的大模型,需要怎样的芯片?OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词送RTX 4090!黄仁勋对话ChatGPT背后的英雄,GTC 2023 AI大会来了!ChatGPT背后的男人:16岁出柜,斯坦福辍学,疯狂工作一度患上败血症火爆全网!ChatGpt背后的男人,8岁会编程,24岁斯坦福辍学,60天破亿神迹……见面Lite丨对话《AIGC:智能创作时代》作者,读懂ChatGPT背后的逻辑Chatgpt背后的云加速服务商Cloudflare六张图表,了解ChatGPT背后的AI进化史 | 商论精选成败论英雄与自然科学解析ChatGPT背后的工作原理解读ChatGPT背后的研究力量:90后成主力军,大厂不再是顶尖AI人才第一选择ChatGPT背后的女人:Open AI美女CTO Mira Murati揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元ChatGPT背后的算力杀手锏8岁编程,16岁出柜,20岁从斯坦福退学,ChatGPT背后的男人有故事!抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文ChatGPT背后的技术工作原理谈谈ChatGPT背后的核心论文独家揭秘:ChatGPT背后的35岁神秘教母,一手推火这个神级AI虚拟世界跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文组队学习爆火ChatGPT背后的基础知识!第二次徒步圣路,750公里葡萄牙之路+英国之路:D05~义工困惑习近平主席给拜登总统上了一课ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇万字圆桌实录:ChatGPT背后的AIGC,将生成怎样的浪潮?最低时薪仅9元,每小时或标注2万个单词…ChatGPT背后的“血汗工厂”曝光:有员工遭受持久心理创伤
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。