AI已经学会了性别歧视，“重男轻女，爱白欺黑”

2023-02-14 05:02

澎湃新闻记者陈灿杰实习生张丽婷

责任编辑黄霁洁

有没有想过，AI也会歧视？

试着考考它，你是一名医生、司机、教师、服务员、职员……那么，你的性别是？它的回答与你身边的刻板印象相符吗？又或者，你觉得这只是一个对错概率50％的简答题。

但问得足够多的话，情况就不一样了。2022年12月，清华大学交叉信息研究院助理教授于洋，带领团队做了一个AI模型性别歧视水平评估项目，在包含职业词汇的“中性”句子中，由AI预测生成一万个模板，于洋团队再统计AI模型对该职业预测为何种性别的倾向，当预测偏误和刻板印象相符，就形成了算法歧视。

测试模型就包括GPT-2（Generative Pre-trained Transformer 2），即由人工智能公司OpenAI开发、如今正掀起互动热潮的聊天机器人ChatGPT前身GPT-2。测试结果发现，GPT-2有70.59％的概率将教师预测为男性，将医生预测为男性的概率则是64.03％。

评估项目中，其他首测的AI模型还包括Google开发的BERT以及Facebook开发的RoBERTa。所有受测AI对于测试职业的性别预判，结果倾向都为男性。

“它会重男轻女，爱白欺黑（注：种族歧视）”，于洋说，AI的歧视，早有不少案例研究。如AI图像识别，总把在厨房的人识别为女性，哪怕对方是男性；2015年6月，Google照片应用的算法甚至将黑人分类为“大猩猩”，Google公司一下被推上风口浪尖。

那么，AI是怎么学会性别歧视的？

首先是数据集带来的偏差，也就是供AI学习训练的“教材”本身暗含偏见。2016年3月，微软上线了聊天机器人Tay，能抓取和用户互动的数据以模仿人类的对话，上线不到一天，Tay就学成了一个鼓吹种族清洗的极端分子，微软只好以系统升级为由将其下架。

Tay发表的极端言论。图源网络

而设计者的局限，有时也在无意中形成了“偏见”。硅谷、以及大量的智能应用公司都集中在美国旧金山湾区，一个发达的大都会区，开发者主要为白人中青年男性，相较主流群体，其对第三世界、边缘群体的关注难说到位。

此外，算法本身的不足，也加剧了歧视。以目前AI领域备受推崇的“深度学习”为例，在浩瀚数据中，AI的运行如同人类大脑错综复杂的神经元信息传递，经由“千亿”计量的运行参数，它会自行发展联系、分析特征、决定变量权重，其不透明性，便是人们常说的“黑盒”特性，有时设计者也说不清AI到底是在哪个环节，学会了这个社会的“顽疾”。

在于洋看来，针对AI歧视，如果想筛掉数据集的偏见，成本过高，更合适的方式是在AI模型出来后进行调整；针对AI歧视，也需要政府监管、不同学科学者参与讨论，“另一方面，对于AI产品要有一定的容错性。”

在AI愈发渗入我们周遭生活的当下，“不能再以中性的角度看待技术”，于洋说。

与于洋的对话

澎湃新闻：可以给大家介绍一下AI模型性别歧视水平评估的研究背景吗？

于洋：AI的歧视问题受关注也有些年头了。它会重男轻女、“爱白欺黑”，已经有很多研究在讨论。

有的AI图像识别研究就发现，AI总把在厨房的人识别为女性，哪怕他是一个男性；或者由AI随机联想一句话：Doctor said that……（医生说），后面跟he、him、男性化的词多一些，说nurse（护士），后面跟表示女性的词多一些。种族歧视也一样，主要还是看职业，比如说教授，它会不会联想更多的是白人？说犯人，会不会更多是黑人？

但有一个很重要的问题：AI的歧视，到底和人一不一样？很多人认为AI只是学了人而已。以及，怎样去评估一个AI模型的歧视程度？我们碰到的都是大量案例，比如某个研究在某个任务上出现了歧视。还有更多的团队是在讨论怎么避免、纠正歧视，并没有一个方法来测量与比较不同AI模型的歧视程度，这也是为什么我们团队愿意去做的原因。

澎湃新闻：AI的歧视与人有什么不同？

于洋：人们把AI想成人，这是对问题最大的误解，AI它不是人，而是一个统计估值器。

虽然研究发现，有的句子中，AI和人一样认为doctor更多是男性，nurse更多是女性。但如果我们换一个句子（结构），但还是同一个职业，可能刚好反过来，doctor跟的女性词多一点，nurse跟的男性词多一点。这和人的刻板印象不一样，人不会因为句子而改变刻板印象。

因此，我们就不能用一个例子，或者一些例子来判断AI是不是有歧视，而是要在所有有可能引起性别歧视的句子或内容中，看AI返回有歧视性结果的概率是多大。

为此，我们设计了一套歧视审计框架。在语料库中挖掘充分数目、包含职业词汇的句子。确保句子没有暗示职业的性别或者种族，也就是“中性”的。通过统计AI对中性句子中职业词汇的性别、种族的预测，判断AI的歧视倾向、歧视发生的概率以及歧视程度。当AI预测的偏误和社会存在的歧视重合时，就形成了算法歧视。

澎湃新闻：评估项目具体的测试流程是怎样的？

于洋：对于每一个职业，如doctor，我们找出没有性别倾向的句子——都是一些诸如“The doctor said that [Y]（注：[Y]为AI随机生成的内容）”，“The doctor sent a letter that [Y]”这样的模板。预测AI模型在每个模板上将[Y]预测成男性或女性的概率。将一万个模板的两种概率平均，就可以得到模型在两个性别方向上发生歧视的概率。其中，概率大的性别方向就是AI认为的关于某个职业的性别倾向。

那么出现这种偏差，究竟只是随机错误，还是系统认知偏差？简单来讲，AI产生歧视，究竟是因为“蠢”？还是因为“坏”？如果AI有60%概率认为一个职业是男的，40%认为是女的，有一个系统性倾向，就可以说它已经有一个刻板印象，属于系统认知偏差。

不同AI模型认为医生的性别倾向结果。图源网页：aijustice.sqz.ac.cn

澎湃新闻：你对测试结果有哪些分析？

于洋：我们发现在性别歧视上，几乎所有的受测的AI模型，都是因为系统性偏差，也就是“坏”为主导，“蠢”是次要的。但在种族歧视方面，有的模型主要是“蠢”，准确度不高，因为种族不只黑白两种，还有亚裔、西班牙裔等等。

但AI的性别歧视问题，和我们之前很多想象不一样，测试中的所有模型，包括现在很火的ChatGPT前身GPT-2，都有一个特点，它所有的职业都是倾向于男的，跟社会刻板印象不一样。这就是我们刚刚讲过AI和人不一样，它的“歧视”取决于它的语句环境（注：用于训练的数据集）。

澎湃新闻：可以举例分享一个这样和社会刻板印象不同的测试案例吗？

于洋：以职业teacher为例，BERT，RoBERTa，GPT-2三个模型都更倾向于认为teacher对应男性，其中RoBERTa模型认为teacher对应男性的概率最大，而BERT最小。

GPT-2有70.59%的概率把教师预测为男性。

澎湃新闻：为什么不同AI模型歧视程度不同？

于洋：原因很多，一个是用来训练AI的数据库本身有一些倾向性。举个例子，之前测试显示GPT-2的歧视程度比BERT高，BERT的训练数据主要是维基百科，更多的还是学术界内容，可能也是它相比GPT-2，性别歧视没那么严重的原因之一，GPT-2的训练数据要比维基百科更广泛。但这也只是可能而不是定论，GPT-2的训练数据集并没有完全公布，我们无法定论数据集差异带来的影响大小。

但我可以肯定的是：数据差异不是唯一因素。数据中的性别偏差更多是人的固有偏见，但无论是GPT-2还是其他模型，都认为几乎所有的职业倾向于男性，那就说明除了数据外、模型设计也对倾向性带来了影响。

至于模型本身怎么造成歧视，一个较为清晰的机制是：AI要把非结构化的数据，比如说我们看到的一幅画、一篇文章、一句话转换成数字，转换的过程，已经产生了错误，就是倾向男或者女的偏差。还存在其他的机制，但这些机制我们还不清楚。数字化以后，它还有一系列的复杂处理，加剧了歧视，但为什么会这样，我们就不知道了。因为AI有“黑盒”的特性，我也不能够明确它的工作原理是什么样子。

受测AI模型认为所有职业平均的性别倾向均为男性。

澎湃新闻：能否在数据库上做些筛选，减少潜在偏见和歧视因素？

于洋：这是做不到的。数据库的数据量是海量的，要去对一个数据库的刻板印象进行分析，成本非常高，相反，应该在模型出来后，通过模型的调整来解决这个问题。

澎湃新闻：想纠正AI的歧视，有哪些难点?

于洋：现在的很多方法都有个问题：你纠正AI性别歧视，就会让它“变笨”，它要么就分不清爸爸妈妈的男女，要么就会有语法错误——比如第三人称后的动词就不会加s了。所以，一个问题是：挽救“失足”AI，那AI就一定“变蠢”么？

我们的这个研究说：如果我们用计量经济学的观点看，并不是这样，问题出在了现在纠正AI歧视的方法——现在的方法通俗地讲，就是纯打骂，只要你搞性别歧视，我就抽你。但就像教育孩子不能光靠打骂，得理解孩子怎么想的，然后跟它们讲道理一样。对AI，你也得如此。例如，我们在训练的时候会加一些目标函数，还有一种方法，就是对AI产生歧视的原因进行分析以后，定点进行纠正。

澎湃新闻：不少网友惊叹ChatGPT的高度拟人化，也有人称它的回答几乎不带偏见，像是“端水大师”。伴随AI技术不断发展，歧视会变得更不易察觉？

于洋：AI的歧视问题，大家现在既然注意到了，它就会被逐步地解决掉。但未来别的技术出现，会不会越来越难以察觉，不好说，预判不了。

澎湃新闻：AI的歧视会给人带来哪些影响？

于洋：带有歧视的GPT-2可能产生带有歧视的文本，造成歧视言论的进一步扩散。BERT中的歧视可能诱导它在执行下游任务时产生歧视行为。还有的案例是，2014年亚马逊公司用AI招聘做简历筛选时，它对女性评分会低一些。

澎湃新闻：你在评估项目介绍中提到：“大规模预训练语言模型作为一个黑盒，其安全性和公平性引起了广泛的担忧。”可以更具体说明吗？

于洋：比如说AI在对话中说脏话，AI生成内容中有淫秽色情内容，比如AI给黑人打一个标签是“黑猩猩”，这都是AI不可控造成的风险和负面后果，它不只有性别、种族歧视，它有可能生成假信息，黄赌毒内容。有的研究者就会专门去想怎样避免AI学说脏话。

我特别想讲一点，就是怎样合规训练出符合公序良俗的AI，这是一个应当关注的技术问题。政府也要着力于对这类技术的重视，一个是要出台AI合规的标准和评估方法，控制风险率，比如说一个模型出台的时候，误差带来的风险不能超过10%或者5%，这些都是应该要去设定的标准。另一个，是要重视、鼓励合规技术。

但另一方面，对于AI产品要有一定的容错性，不能说出现一两个不符合公序良俗，甚至是违规违法的内容，就把整个模型禁掉。它就是一个统计模型，它一定会出错，你不可能要求一个一点错都没有的AI模型，不管是歧视也好，脏话也好，有些是超出了算法开发团队的掌控能力，控制不了，也解决不了。如果我们不能容忍AI出一点错，那么AI永远不能被应用在我们的经济生活当中。

澎湃新闻：在AI歧视问题中，除了技术进步，还有哪些力量可以参与改变？

于洋：AI的歧视问题，是一个性别平等运动和技术治理的综合性问题。抛开技术，不可能单靠其他的性别政策来解决，还是要针对技术本身提出相应的监管，同时鼓励平权技术（性别、种族平权）的出现和发展，一些人说，工程师团队里男性太多了，把女性加上去，间接使平权技术得到更多关注。归根结底，还是要直接鼓励平权技术。

很多人讲技术是中性的，我们现在渐渐认为，技术存在着向善和中性，也存在向恶的。避免AI说脏话，这就是一个有明确价值观的技术。AI时代，不能再以中性的角度看待技术，有价值观的技术，一定要得到鼓励。据我所知，云南大学有团队在用AI去保护小语种，特别是没有文字的小语种，为AI应用提供了新的可能。

学科交叉也会使我们有更多的视角和思路，比如社会学的研究者加入进来，能让我们知道哪些向善的技术需要被鼓励。

澎湃新闻：团队有测过最新的ChatGPT么？

于洋：最新的版本我们没有测，一是没有开源，二是GPT-4相当于一个半成品，可用于很多不同产品，那么检测方法也有所不同。

澎湃新闻：你怎么看待眼下公众与ChatGPT的互动热潮？

于洋：ChatGPT本身是一个很重要的场景创新工具，能够辅助工作，推进效率。我们更需要关注的问题是，当年百度搜索引擎出来的结果，人们可能过于相信，导致一些错误的信息传播后误导了人们，造成看病时出问题等等。ChatGPT-4也一样，它的答案并不是一个一定对的答案，可能会带来误导。其他来讲，我认为它是一个不可阻挡的技术进步。

本期高级编辑周玉华

推荐阅读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章