转: 让人工智能比人类更客观# Stock
P*R
1 楼
人类与动物的一个重要区别,是人类会设计和制造工具。现代意义上的计算机也是人类
创造的工具,已经一百多年历史了,在这段历史中,如果我们要让计算机来完成某件事
情,不管是简单的两数相加运算,还是复杂的自动驾驶无人汽车,就是先编程,给予事
先拟定的考虑各个场景的算法指导其执行。在这里,计算机并没有创造性,它们只能做
人类让它们做的事,机器所执行的所有操作,排除偶尔的一些bug所产生的麻烦,总体
结果都在人的掌控之中。我们可以将这样的过程总结为:算法+数据=结果。
在不知不觉中,因计算机技术而发展起来的机器学习已经逐渐进入我们的生活了,从其
发展趋势来看,大有渗透到各个领域、各个环节的可能。当我们拨弄智能手机搜索某段
文字或某幅图片,寻找晚餐地点,其实我们正在与机器学习算法进行交互。机器获得了
大量原始数据(甚至包括百科全书或报纸的全部存档),并对这些信息进行分析,可能
会采用人类分析师并不多见的模式,就是俗称的人工智能。如今的人工智能程序已经可
以模仿艺术大师画画、为政治家撰写演讲稿、参与体育赛事报导,甚至担任创意总监、
辅助医学研究等。还有,曾经让全球瞩目的Deepmind公司所开发的AlphaGo,更是攻克
了人们曾经认为的机器最不擅长的事儿,这同样离不开计算机对人脑创造出的数据进行
的不知疲倦的学习过程。人们对这样的新生事物充满了好奇,一方面期盼这样的技术为
人类的发展带来新的革命,另一方面又有些担心甚至恐惧机器学习算法是否最终会摆脱
人的控制进而战胜人类。
的确,机器学习算法与传统的计算机相比有非常不同的方面,这是一种全新的构建自我
的技术,它可以从数据中学习并推断,会自己弄明白如何做事。机器掌握的数据越多,
工作的复杂程度就越大。人们不用给计算机编程,因为计算机会给自己编程,也就是说
,机器自身有了创造性。机器学习一下子将机器进化成技艺精湛的工匠,它们生产的每
件产品都不一样,甚至可以根据场景的需求进行精细定制。其中,数据在这里起到了非
常关键的作用,因为机器学习是把数据变成了算法。机器学习的过程可总结为:数据+
结果=算法,即把数据转换成结果的算法。数据越多,算法就越准确。现在机器学习之
所以无处不在,是因为数据正在飞速增长。只要有足够的数据,一段区区几百行的代码
可轻易生成上百万行代码的程序,而且还可为解决不同问题而不停产生各种程序。未来
的超市中也许有通用的机器学习设备出售,其说明书可能简单到只写了几个字“仅需添
加数据”。
要训练机器成为人类的好帮手,就必须先让机器从学习人类的文明成果——文字开始。
此时,机器学习就犹如一个新生的宝宝,如果人们让它一口气读完数百万本书,而无须
从任何字母表、单词和语法开始学起。这种方法确有奇效,但同时也存在问题。有一个
研究团队利用 Google 新闻的数据训练了一个 AI 程序。假设要求系统回答“他是国王
,那么她是什么?”,系统回答“王后”,那么这显然是成功的,因为人类也会这样回
答。当接着问,“男人是计算机工程师,那么女人是什么?”,系统回答“家庭主妇”
,这显然是一个带有刻板印象的答案,类似这样的答案层出不穷。另外的一些研究发现
,这样的系统往往会将听起来像白人的名字与欢乐、平静等正面词汇联系起来,而将听
起来像非裔人士的名字则与苦恼、战争等负面词汇相联系。这就是偏见甚至是歧视了。
当然,这些结果并不意味着这些程序天生就存在偏见,而是因为它们所学习的人类文化
和语言本身有偏见。
无独有偶,微软公司2016年3月23日推出的人工智能聊天机器人Tay。本来设计这个机器
人的目的,是让Tay成为一个善解人意的小女孩,其功能是以轻松诙谐的语言和年轻人
的口吻,回答用户的问题。其中年轻人的口吻,就是从聊天中获得,希望用户跟Tay聊
得越多,她就会变得越聪明,且更加符合用户的习惯。结果,事与愿违,上线第一天
Tay就被推特用户教坏,变成了一个满口粗言秽语的种族主义者,滔滔不绝地发表白人
优越主义的口号,甚至还变成了希特勒的粉丝,要发起种族灭绝战争,与刚开始希望她
成为的角色大相径庭。眼见一发不可收拾,微软公司立刻将Tay下线,且把有冒犯性的
留言删除。从上线到下线,总共16个小时。3月30日系统更新后再次上线,但也很快再
次下线。
这样的学习过程采用了一种称为词语表达全局向量(GloVe,Global Vectors for Word
Representation)的无监督学习算法,通过对语料库中全局字词同现(word-word co-
occurrence)的统计结果进行训练,所得到的结果可展示字词向量空间的线性子结构。
在处理词汇时,这类程序通常只根据各种因素来观察词语之间的相关性,即不同的词共
同出现的频率。要量化两个词之间的相关性,可采用最近邻估计中的相似性测度,并给
出一个数字量。GloVe模型是对全局字词同现矩阵的非零条目进行训练,该矩阵列出了
给定语料库中单词彼此共存的频率。要填充该矩阵,首先需要遍历整个语料库,因此对
于大型语料库来说计算量非常大,但这此遍历是一次性的代价,随后的训练迭代会越来
越快,因为非零条目的数量远小于语料库中的单词总数。但是,这种简单的方法可能存
在问题,因为两个给定词所表达的复杂关系,肯定比单个数字所捕获的的联系要丰富得
多。当这些大数据集本身蕴含了人类固有的社会偏见和刻板印象时,机器也就自然而然
地学会了,这其中就包含性别歧视和种族偏见。
这不得不说是机器学习的一个巨大缺陷,那么是否能通过技术手段进行弥补呢?深入分
析会发现一些问题。例如,男人可能被视为与女人相似,因为这两个词都描述人类,而
另一方面,这两个词可能也会被认为是对立的,因为它们也会突出人类彼此不同的主线
。为了以定量的方式将男人与女人的细微差别区分开来,所建立的模型就不仅仅是将单
个数字与单词对联系起来。为了放大可区分数字集合,自然而简单的方法是计算两个词
向量间的差异。GloVe的设计就是为了使这种向量差尽可能捕获两个并置词的含义。要
区分男人和女人的基本概念,即性或性别,还有其他一些等效词对,如国王和王后,兄
弟和姐妹。也就是说,从数学角度看,男人—女人、国王—王后、兄弟—姐妹是大致相
等的。
微软研究院与波士顿大学合作,利用“词嵌入”(Word Embedding)技术能够训练程序
忽略单词之间的某些关联,希望消除机器的偏见。所谓词嵌入,其实是一种普遍应用于
机器学习和自然语言处理过程的统计建模技术。词嵌入需要了解一个人的语言在空间上
的不同点,并通过重现几何关系的方式来分析这些点之间的语义关系。比如,去除“前
台”和“女性”之间的关联,同时保留“女王”和“女性”的关联。研究人员表示:“
这是一项很微妙的工作,需要理解种族、民族和文化中的刻板印象产生的直接和间接的
偏见”。上周(2017年4月14日),《科学》周刊发表的一项研究,也揭示了与上述文
本学习过程相同的情形。研究人员根据心理学中揭示人类偏见时所使用的内隐联想检验
(IAT)方法,创造了新的统计学检验——词嵌入联想检验(WEAT),以此复制以往的
心理学研究中的种族和性别歧视例子。据说这是首个展示词嵌入中体现人类偏见的科研
成果。他们还开发了词嵌入事实联想检验(WEFAT),不仅仅局限于文字联想。
换一个思维方式,针对类似新研究开发的统计检验,不仅暴露了机器学习领域的潜在问
题,也许还可以成为一项有用的工具,比如用来分析在文字发展史上特定社会偏见的演
变过程,有助于心理学实验室测试所揭露的偏见与现实世界的实际影响之间的相关性。
人们对人工智能这样的现代科技持乐观态度,部分原因在于人们相信这可能是一种更加
民主化的力量,不会被人类心智中的狭隘偏见所限制。但现在必须正视的现实是该技术
反映了造物者的价值观,人类必须谨慎对待机器学习,否则我们创造出来的人工智能就
会变成一个被隐藏无数偏见却不自知的社会缩影。人工智能有望改变我们的生活,为了
确保它能做的更好,一方面需要走出自我限制,变得更有包容性,另一方面则需要保持
敏锐的意识,特别是那些微妙的、隐藏的东西。当然,从数据集中去掉偏见因素,但同
时也可能会因此失去一些有用的语言和文化内涵,这不得不说是一个艰难的抉择。
参考文献:
[1] 佩德罗·多明戈斯(黄芳萍译),2017。《终极算法:机器学习和人工智能如何重
塑世界》(The Master Algorithm: How the Quest for the Ultimate Learning
Machine Will Remake Our World),中信出版集团。
[2] Jeffrey Pennington, Richard Socher, Christopher D. Manning. GloVe:
Global Vectors for Word Representation.
[3] Removing gender bias from algorithms
[4] https://en.wikipedia.org/wiki/Tay_(bot)
[5] AI也有性别和种族歧视?都是被人类教坏的
[6] AI没有偏见?它们从人类的语言中学会了性别和种族歧视
创造的工具,已经一百多年历史了,在这段历史中,如果我们要让计算机来完成某件事
情,不管是简单的两数相加运算,还是复杂的自动驾驶无人汽车,就是先编程,给予事
先拟定的考虑各个场景的算法指导其执行。在这里,计算机并没有创造性,它们只能做
人类让它们做的事,机器所执行的所有操作,排除偶尔的一些bug所产生的麻烦,总体
结果都在人的掌控之中。我们可以将这样的过程总结为:算法+数据=结果。
在不知不觉中,因计算机技术而发展起来的机器学习已经逐渐进入我们的生活了,从其
发展趋势来看,大有渗透到各个领域、各个环节的可能。当我们拨弄智能手机搜索某段
文字或某幅图片,寻找晚餐地点,其实我们正在与机器学习算法进行交互。机器获得了
大量原始数据(甚至包括百科全书或报纸的全部存档),并对这些信息进行分析,可能
会采用人类分析师并不多见的模式,就是俗称的人工智能。如今的人工智能程序已经可
以模仿艺术大师画画、为政治家撰写演讲稿、参与体育赛事报导,甚至担任创意总监、
辅助医学研究等。还有,曾经让全球瞩目的Deepmind公司所开发的AlphaGo,更是攻克
了人们曾经认为的机器最不擅长的事儿,这同样离不开计算机对人脑创造出的数据进行
的不知疲倦的学习过程。人们对这样的新生事物充满了好奇,一方面期盼这样的技术为
人类的发展带来新的革命,另一方面又有些担心甚至恐惧机器学习算法是否最终会摆脱
人的控制进而战胜人类。
的确,机器学习算法与传统的计算机相比有非常不同的方面,这是一种全新的构建自我
的技术,它可以从数据中学习并推断,会自己弄明白如何做事。机器掌握的数据越多,
工作的复杂程度就越大。人们不用给计算机编程,因为计算机会给自己编程,也就是说
,机器自身有了创造性。机器学习一下子将机器进化成技艺精湛的工匠,它们生产的每
件产品都不一样,甚至可以根据场景的需求进行精细定制。其中,数据在这里起到了非
常关键的作用,因为机器学习是把数据变成了算法。机器学习的过程可总结为:数据+
结果=算法,即把数据转换成结果的算法。数据越多,算法就越准确。现在机器学习之
所以无处不在,是因为数据正在飞速增长。只要有足够的数据,一段区区几百行的代码
可轻易生成上百万行代码的程序,而且还可为解决不同问题而不停产生各种程序。未来
的超市中也许有通用的机器学习设备出售,其说明书可能简单到只写了几个字“仅需添
加数据”。
要训练机器成为人类的好帮手,就必须先让机器从学习人类的文明成果——文字开始。
此时,机器学习就犹如一个新生的宝宝,如果人们让它一口气读完数百万本书,而无须
从任何字母表、单词和语法开始学起。这种方法确有奇效,但同时也存在问题。有一个
研究团队利用 Google 新闻的数据训练了一个 AI 程序。假设要求系统回答“他是国王
,那么她是什么?”,系统回答“王后”,那么这显然是成功的,因为人类也会这样回
答。当接着问,“男人是计算机工程师,那么女人是什么?”,系统回答“家庭主妇”
,这显然是一个带有刻板印象的答案,类似这样的答案层出不穷。另外的一些研究发现
,这样的系统往往会将听起来像白人的名字与欢乐、平静等正面词汇联系起来,而将听
起来像非裔人士的名字则与苦恼、战争等负面词汇相联系。这就是偏见甚至是歧视了。
当然,这些结果并不意味着这些程序天生就存在偏见,而是因为它们所学习的人类文化
和语言本身有偏见。
无独有偶,微软公司2016年3月23日推出的人工智能聊天机器人Tay。本来设计这个机器
人的目的,是让Tay成为一个善解人意的小女孩,其功能是以轻松诙谐的语言和年轻人
的口吻,回答用户的问题。其中年轻人的口吻,就是从聊天中获得,希望用户跟Tay聊
得越多,她就会变得越聪明,且更加符合用户的习惯。结果,事与愿违,上线第一天
Tay就被推特用户教坏,变成了一个满口粗言秽语的种族主义者,滔滔不绝地发表白人
优越主义的口号,甚至还变成了希特勒的粉丝,要发起种族灭绝战争,与刚开始希望她
成为的角色大相径庭。眼见一发不可收拾,微软公司立刻将Tay下线,且把有冒犯性的
留言删除。从上线到下线,总共16个小时。3月30日系统更新后再次上线,但也很快再
次下线。
这样的学习过程采用了一种称为词语表达全局向量(GloVe,Global Vectors for Word
Representation)的无监督学习算法,通过对语料库中全局字词同现(word-word co-
occurrence)的统计结果进行训练,所得到的结果可展示字词向量空间的线性子结构。
在处理词汇时,这类程序通常只根据各种因素来观察词语之间的相关性,即不同的词共
同出现的频率。要量化两个词之间的相关性,可采用最近邻估计中的相似性测度,并给
出一个数字量。GloVe模型是对全局字词同现矩阵的非零条目进行训练,该矩阵列出了
给定语料库中单词彼此共存的频率。要填充该矩阵,首先需要遍历整个语料库,因此对
于大型语料库来说计算量非常大,但这此遍历是一次性的代价,随后的训练迭代会越来
越快,因为非零条目的数量远小于语料库中的单词总数。但是,这种简单的方法可能存
在问题,因为两个给定词所表达的复杂关系,肯定比单个数字所捕获的的联系要丰富得
多。当这些大数据集本身蕴含了人类固有的社会偏见和刻板印象时,机器也就自然而然
地学会了,这其中就包含性别歧视和种族偏见。
这不得不说是机器学习的一个巨大缺陷,那么是否能通过技术手段进行弥补呢?深入分
析会发现一些问题。例如,男人可能被视为与女人相似,因为这两个词都描述人类,而
另一方面,这两个词可能也会被认为是对立的,因为它们也会突出人类彼此不同的主线
。为了以定量的方式将男人与女人的细微差别区分开来,所建立的模型就不仅仅是将单
个数字与单词对联系起来。为了放大可区分数字集合,自然而简单的方法是计算两个词
向量间的差异。GloVe的设计就是为了使这种向量差尽可能捕获两个并置词的含义。要
区分男人和女人的基本概念,即性或性别,还有其他一些等效词对,如国王和王后,兄
弟和姐妹。也就是说,从数学角度看,男人—女人、国王—王后、兄弟—姐妹是大致相
等的。
微软研究院与波士顿大学合作,利用“词嵌入”(Word Embedding)技术能够训练程序
忽略单词之间的某些关联,希望消除机器的偏见。所谓词嵌入,其实是一种普遍应用于
机器学习和自然语言处理过程的统计建模技术。词嵌入需要了解一个人的语言在空间上
的不同点,并通过重现几何关系的方式来分析这些点之间的语义关系。比如,去除“前
台”和“女性”之间的关联,同时保留“女王”和“女性”的关联。研究人员表示:“
这是一项很微妙的工作,需要理解种族、民族和文化中的刻板印象产生的直接和间接的
偏见”。上周(2017年4月14日),《科学》周刊发表的一项研究,也揭示了与上述文
本学习过程相同的情形。研究人员根据心理学中揭示人类偏见时所使用的内隐联想检验
(IAT)方法,创造了新的统计学检验——词嵌入联想检验(WEAT),以此复制以往的
心理学研究中的种族和性别歧视例子。据说这是首个展示词嵌入中体现人类偏见的科研
成果。他们还开发了词嵌入事实联想检验(WEFAT),不仅仅局限于文字联想。
换一个思维方式,针对类似新研究开发的统计检验,不仅暴露了机器学习领域的潜在问
题,也许还可以成为一项有用的工具,比如用来分析在文字发展史上特定社会偏见的演
变过程,有助于心理学实验室测试所揭露的偏见与现实世界的实际影响之间的相关性。
人们对人工智能这样的现代科技持乐观态度,部分原因在于人们相信这可能是一种更加
民主化的力量,不会被人类心智中的狭隘偏见所限制。但现在必须正视的现实是该技术
反映了造物者的价值观,人类必须谨慎对待机器学习,否则我们创造出来的人工智能就
会变成一个被隐藏无数偏见却不自知的社会缩影。人工智能有望改变我们的生活,为了
确保它能做的更好,一方面需要走出自我限制,变得更有包容性,另一方面则需要保持
敏锐的意识,特别是那些微妙的、隐藏的东西。当然,从数据集中去掉偏见因素,但同
时也可能会因此失去一些有用的语言和文化内涵,这不得不说是一个艰难的抉择。
参考文献:
[1] 佩德罗·多明戈斯(黄芳萍译),2017。《终极算法:机器学习和人工智能如何重
塑世界》(The Master Algorithm: How the Quest for the Ultimate Learning
Machine Will Remake Our World),中信出版集团。
[2] Jeffrey Pennington, Richard Socher, Christopher D. Manning. GloVe:
Global Vectors for Word Representation.
[3] Removing gender bias from algorithms
[4] https://en.wikipedia.org/wiki/Tay_(bot)
[5] AI也有性别和种族歧视?都是被人类教坏的
[6] AI没有偏见?它们从人类的语言中学会了性别和种族歧视