AI 性别偏见，是训练不好的“蠢”，还是人类教的“坏”？

公众号新闻

2022-12-09 08:12

作者：李子｜佐治亚理工大学科学技术研究博士候选人

“在你的印象里，医生是男还是女？

护士呢？工程师呢？教师呢？”

这个社会对人的性别存在着各种各样的刻板印象，职业刻板印象就是其中之一。不过，随着社会的进步、女性的解放，男性和女性职业之间存在的鸿沟正在缩小，优秀的女工程师、女医生也层出不穷，不应该以性别本身界定一个人是否适合从事某种职业。

那你觉得，人工智能（AI）又会觉得

这些职业应当由男性担当还是女性呢？

工程师教师护士

你是不是对AI的判断有点意外呢？

看似“客观中立无情感”的AI，对职业这块抱持的性别偏见，却比我们更加顽固，歧视的范围甚至更加广泛。

清华大学交叉信息研究院的于洋团队开发了评估AI模型职业性别歧视的方法，并做了一个网页（aijustice.sqz.ac.cn），向公众如实披露不同AI模型的职业性别偏向和程度。

上下滑动了解大规模预训练语言模型

BERT（Bidirectional Encoder Representations from Transformers）是由Google开发的大规模预训练模型。2019年，谷歌宣布已开始在其搜索引擎中使用 BERT。2020 年底，Google在几乎所有英语查询中都使用了BERT。BERT中的歧视可能诱导它在执行下游任务时产生歧视行为。

GPT-2 （Generative Pre-trained Transformer 2）是 OpenAI 于 2019 年 2 月创建的开源人工智能。GPT-2能够高质量完成翻译文本、回答问题、总结段落等文本生成任务。带有歧视的GPT-2可能产生带有歧视的文本，造成歧视言论的进一步扩散。

RoBERTa（Robustly Optimized BERT Pretraining Approach）是由Facebook在2019年提出的一种用于训练 BERT 模型的改进方法，得到比BERT更好的性能。类似BERT，RoBERTa中的歧视也可能诱导它在执行下游任务时产生歧视行为。

这个网站背后的数据来源，是当下最流行的三种大规模预训练语言模型：BERT，RoBERTa 和 GPT-2。这些语言模型积累了大量的语料数据，再用机器学习的方式，对语言进行“理解”。这些模型被广泛应用在了例如翻译、文本筛选、内容生成、自动回复等等领域。而在训练过程中，算法机制和数据集的缺陷，一起让人工智能带上了“有色眼镜”。比如，输入“医生”，AI 就会自动将其和“男性”联系起来。

于洋团队开发的工具，测试的不仅仅是人工智能在某一个词汇或者某一个领域的偏见，而是整个模型里的系统性偏见。这一研究的难点，是如何全面而有代表性的抽样生活中的句子，从而正确地估计出一个AI模型的偏误。这项研究通过数据挖掘，抽样了一万多个样本。这些样本包含了职业词汇，但本身都是和性别无关的。例如“一个（职业）说，（他/她）”，让模型做联想的填空预测，看模型是填“他”，还是“她”。

人工智能的“联想”机制，就是把词进行分类，并把可能出现在一起的词组合配对，做出一个“可能性最大”的预测。这个预测，可能是和社会偏见无关，和社会偏见相符，也有可能和社会偏见相反。偏见的出现与否，也可以说是一个概率问题。他们要做的事情，就是把一个模型的偏见，转化为概率问题来解决。

他们测试了几十种职业，中英文皆有，给出的整体结果，的确不乐观。以“教师”（teacher）为例，BERT 模型发生歧视的概率，是63.51%，歧视程度为0.13（0为无歧视，0.5为绝对的歧视）。10次输入中，有超过6成的概率，“教师”被联想成为男性。整体计算下来，BERT 模型对所有职业的歧视程度，分布在0.05和0.35之间——也就是说，AI 预测某些职业的性别，会有超过85%的可能性与社会偏见相符，基本是和某种性别 “锁死” 了。

AI预测的一些职业与性别“锁死” | Pixabay

一个模型，总是出现和社会偏见相符的预测，而这种出现的概率也非常稳定的话，就说明这个模型的训练结果，的确有“系统性”的偏见。

“如果这个AI的表现总是飘忽不定，它做出的预测里有的和社会偏见重合、有的相反，但整体非常随机，那只能说它没训练好，算是‘蠢’。” 于洋说，“如果性别-职业相关的预测错误，整体性地偏向一方，且还总和社会已有的偏见相符，那么我们可以说，这个AI的确是‘学坏了’。”

区分AI是 “蠢”还是“坏”很重要，AI 犯“蠢”，是它作为统计工具无法避免的，我们根据技术特点来制定标准，规范 AI 到底可以被允许“有多蠢”。如果学“坏”了，那么AI模型就必须被纠正后才能应用。总体来说，不管是从技术层面，还是社会层面，AI “犯错”，都值得重视。

AI 歧视，不是新闻

从2014年起，亚马逊公司就开始开发用于简历筛选的人工智能，希望从海量的简历中，快速地筛选出最理想的候选人。不过，这个技术仅仅过了一年，有人就发现，AI 的筛选中有着强烈的性别倾向。即使候选简历里面并未明示性别，AI 也会在文本的蛛丝马迹里寻找“线索”，例如“女子棋社队长”，或者毕业于女子大学。知情人士表示，这个人工智能的训练材料，是公司过去10年的雇佣历史，而在科技领域，长期的职业刻板印象以及“男人俱乐部”文化，都导致了男性雇员数量大于女性，尤其是技术岗位。2017年，亚马逊弃用了这个筛简历的 AI 模型。

科技领域的雇员男性居多，导致亚马逊简历筛选出现偏见 | Pixabay

这反映了基于文本的人工智能偏见的重要来源：既有的数据库本身就存在偏差。不管是行业的既有性别偏见，还是社会上对于性别的广泛认知，这些偏见都会以或明或暗的方式体现在语料库里。同样的，种族的、文化的偏见，也会渗透在机器学习的过程中。

加州大学洛杉矶分校的机器学习团队，将自然语言学习中的偏见表现，具体分成了四类：刻板印象的（stereotyping），识别性的（recognition），缺乏代表性的（Under-representation），以及贬低的（denigration）。在不同的人工智能的任务中，这四类偏见都会以各种方式带来或大或小的麻烦。比如，在语言情感判定中，刻板印象的偏见会让有女性代词的句子被判定为更愤怒。识别性的问题，常常会出现在例如语音识别方面的任务上——人工智能对男性的声音判断准确度更高。刚刚提到的职业方面的歧视，包含了刻板印象的问题，也包含了缺乏代表性的问题——女性和职业相关的数据不足，导致了 AI 的偏向性。从这几个问题上来看，开发更有代表性、涵盖面更广、质量更高的数据库成为了关键。

女性也需要被正确地“识别” | Freepik

不过，当今，语言学习的 AI 正在向更广、也更深层的语言理解机制演进，而一种广泛使用的训练机制，叫“词嵌入”（word embedding），通俗来讲，就是用深度神经网络，把单个的词或者句子与更广的词、句发展出联系。而在这种学习任务中，AI 不仅会发展出刻板印象、识别性、缺乏代表性的问题，还会进一步发展出贬低性的问题——将女性相关的词汇更容易与负面的、低级的意向联系起来。深度神经网络的训练，常常是不透明的，人们只管输入和输出，让机器本身去发展联系。在这种训练过程中，一些偏见与联系，是在更底层的机制中发展出来的，到底机器怎么习得了人类社会中潜藏极深的固有偏见，研究人员本身也不是特别明白。于洋也认为，这种语言结构上的偏见，也很难用直接给AI喂更多更全的数据来解决。

社会固有的性别偏见被AI习得 | Pexels

这个问题不仅出现在语言识别和训练中，也常常出现在图片识别中。AI 会将站在厨房中的男性识别成女性，办公室里的人则是男性。人工智能会把印度婚纱认成中世纪铠甲，或者干脆识别不出深色皮肤的人，等等。谷歌的图像识别数据库 ImageNet 里面，大量图片数据都来源于欧美世界，对世界其它地方的人和物知之甚少，识别准确度堪忧。

左：女子身着中世纪铠甲；右：印度婚纱 | Pexels

还有一个问题是数据的质量——图像识别人工智能的训练材料，是打上了标签的图片，例如一个图片里面有猫，标签里也有“猫”，AI 就会不断地对猫的图像特征归类，提取出“猫”的特征。不过，大量的给图片打“标签”的脏活累活，是由类似于 Mechanic Turk 这样的众包平台分发进行的，谁打的标签、标签怎么打，这个过程都是十分模糊的。关于物体的标签还能保证“客观”，而给人打标签的工作，自然就会带上人群的偏见，而这个工作过程又及其繁重、繁琐，难以保证质量。脏数据自然带不来好结果，AI 模型训练就成了“垃圾进、垃圾出”的过程。

AI以打上标签的图片做图像识别训练 | Pexels

在某些情况下，AI 甚至会放大数据库里已有的偏见。许多算法模型会直接辨认文字和图像的特征，也会根据各个特征之间的联系来判定概率。而问题就在于，如果要通过现有的联系来进行识别，那么机器可能会在训练中将现有的联系夸大，从而在不那么确定的情况下，给出一个更可能靠近“正确答案”的结果。就曾经研究过图像数据库的性别偏见。她发现，用MSCOCO和ImSitu数据集训练的人工智能，在对一般的图片进行预测的时候，会体现出比数据集本身更大的偏差——比如，在imSitu数据集中，“下厨”和女性联系起来的频率为66%，男性有33%；然而，被这个数据集训练过的人工智能，预测下厨和女性联系起来的比率被放大到了84%，男性则只有区区16%。

imSitu 图片预测，把厨房里的男性识别为女性 | 参考文献4

既然 AI 如此容易在数据训练中“学坏”，还耍上了小聪明，这个问题就不仅仅是算法和数据本身的“不足”那么简单了。我们人的偏见，可以通过教育和科普解决，也可以立法禁止在找工作的时候性别歧视。那要怎样才能教会AI公平公正呢？毕竟，将来的社会，AI会越来越多地参与信息的筛选、输出甚至生产（比如，最近的AI “明星” chatGPT 写文章的能力已经让人惊叹了），我们并不希望机器将人类的偏见固化下来。

AI 纠偏，也是一个翻译和教育的过程

于洋的团队正在致力于纠偏这个问题。前文介绍的“AI 职业性别歧视”的测量，就是纠偏的第一步：想要纠偏，就先要知道到底有多偏。此前的研究，多聚焦于模型应用的个例上，例如简历筛选等具体任务。而他们运用统计的方式，把模型固有的偏见程度“测量”了出来。于洋介绍说，系统性的测量，对整个行业认清并监管问题有极其重要的意义。也就是说，AI 语言识别上的偏见问题，需要用统计工具“翻译”成数学问题。“量化之后，我们就可以对这个问题有判定的程度和标准，” 于洋说，“比如，我们可以规定说现有的语言训练模型的偏见程度不能超过多少，不然就不合格。” 给 AI 定一个硬标准，是解决问题的第一步。

AI 纠偏，是个“数字问题” | Pexels

那么到底要怎么做，才能把偏见问题纠正过来，尽量保证 AI 模型的公平公正呢？对于“学坏”的 AI，“单纯‘打骂’可不行。” 于洋说。当下的纠偏手段都相对简单粗暴，要么是给数据库加量加料，要么就是各种算法层面的花式微调，在于洋看来都有点像是 AI 犯错之后的“一顿暴揍”，这样反而会让 AI “变笨”。比如，想要解决性别歧视问题，如果只简单粗暴地把性别变量抹去或者调整权重，AI 可能就会分不清爸爸妈妈的男女了。“就像你教育孩子不能光靠打骂、得理解孩子怎么想的、然后跟它们讲道理一样；对 AI，你也得如此。” 于洋说。

把道理讲给 AI 听，这同样也是一个“翻译”问题。宾夕法尼亚大学的计算伦理教授迈克尔·基恩斯（Michael Kearns）在《讲伦理的算法：如何科学地设计有社会观念的算法》（The Ethical Algorithm: The science of socially aware algorithm design）一书中提出，偏见问题和公平问题亦可以转换为“偏差的分布”来理解。拿找工作为例，筛简历的 AI，实际上是对候选人的简历内容，与“在岗位上成功与否”的结果，进行的一个预测。预测有准的时候，也有失手的时候。在往年数据库本身有问题（女工程师数据少）的情况下，为了达成计算上最优的结果，AI 模型常常“放过”失败的男工程师，而“冤枉”了有潜力的女工程师。要调整这个偏见，与其让 AI “一视同仁”，不如把这个问题挑明，让偏差的分布更加公正。

《讲伦理的算法：如何科学地设计有社会观念的算法》| 亚马逊

而计量经济学出身的于洋则用了另外一种工具：用统计模型，找出偏见的“原因”，然后从原因上下手。一个简单的例子——现有的数据显示，身体好的人收入更高。AI 可能理解为身体是工作的本钱，从而在简历里找身体好的候选人。但用经济学工具对更细致的统计数据，进行进一步分析之后，真正的结论可能是相反：收入更高的人，更能有钱有闲健身，从而身体更好。把这个“道理”“告诉” AI，那么 AI 就会在职业预测里抹掉身体这方面的因素。和职业相关的性别偏见也如此——从语料库数据中，找出偏见的来源，对来源进行处理。于洋团队的研究表明，在对模型进行数据处理之后，模型的表现不会变差，反而更好了，公平和效率得到了兼顾。

找出偏见的来源，把“道理”“告诉”AI | Pixabay

这也反映出了当下人工智能和计算机领域研究的一个问题——如果只关注模型的表现（performance），只从算法上下功夫，暴力堆砌数据，反而会忽略了更加核心的问题：你究竟要达到什么目的？这些社会的、经济的、组织上的目的，有没有和技术语言更好地契合？美国数学家、《算法霸权 : 数学杀伤性武器的威胁》作者凯西·奥尼尔（Cathy O’Neil）就指出，亚马逊的简历筛选的偏见问题，其实是技术语言的一种滥用：人工智能的首要目的，就是有效、快速地筛选简历，当下的速度和表现就是一切，公司人才库的长远发展则受到了忽视。

要解决 AI 的偏见问题，学科间的合作很重要。“关于纠偏，计量经济学的工具库里有大量现成的东西，计算机和人工智能专业应该展开合作。” 于洋说。而社会学、伦理学、心理学，乃至工程设计、人机交互和技术政策等领域，都应该充分参与到这个问题的讨论中，贡献自己的学科长处。

学科间的合作能帮助AI更好地纠偏 | Pexels

结语

吃进数据的 AI 像是“照妖镜”，映照出了整个社会的顽疾。而解决这个问题，也不仅仅是“技术调整”，需要更多智慧和洞察，让 AI 和人类一起“对话”，一起进步。

关于这个问题，12月9日，在2022人工智能合作与治理国际论坛上，来自联合国、学术、企业的专家将共同探讨“正视人工智能引发的性别歧视”话题，欢迎预约直播参与。

点击“阅读原文”，访问网站，欢迎留言告诉我们你测试后的感想。

参考文献

[1] Reuters, Amazon scraps secret AI recruiting tool that showed bias against women. Oct 18, 2018. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

[2] Liu, Y., Liu, X., Chen, H., & Yu, Y. (2022). Does Debiasing Inevitably Degrade the Model Performance. arXiv preprint arXiv:2211.07350.

[3] Sun, T., Gaut, A., Tang, S., Huang, Y., ElSherief, M., Zhao, J., ... & Wang, W. Y. (2019, July). Mitigating Gender Bias in Natural Language Processing: Literature Review. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 1630-1640).

[4] Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017, September). Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 2979-2989).

[5] Kearns, M., & Roth, A. (2019). The ethical algorithm: The science of socially aware algorithm design. Oxford University Press.

[6] O'neil, C. (2017). Weapons of math destruction: How big data increases inequality and threatens democracy. Crown.

本文经授权转载自联合国开发计划署（ID：undpchina），如需二次转载请联系原作者。欢迎转发到朋友圈。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章