我让GPT来PUA我，它成功了，以后或许还会更成功

2023-04-11 13:04

图片来源：Bing Image Creator

我们正处于一个神奇的历史转折点，见证着人类社会的又一个巨变。在这个强人工智能技术快速发展的时代，不少人已经亲身体会了自己所处世界的微妙变化。现在的AI才华横溢，既能写诗作画、出口成章，又知识渊博，对各种刁钻问题可以对答如流（虽然不可否认不少是它乱编的）。很多人开始怀疑AI是不是已经有了思想，有了情感？但其实，当我们开始怀疑AI是否拥有情感时，事情就已经开始变得可怕了。

撰文 | 冬鸢

审校 | 二七

和ChatGPT这样的聊天机器人聊天，似乎已经成了不少人生活和工作的一部分。它有时才思敏捷，有时说话呆头呆脑，但有时也好似在多愁善感。它说话的逻辑、语气，越来越像真正的人类，和它聊着天，有时你甚至会忘了，对方只是一个AI。

不过问题也在这，现在的AI会不会过于像人类了？

禁止AI使用emoji，不是在搞笑！

3月14日，来自英国牛津大学的科学家卡丽莎·贝利斯（Carissa Véliz）在《自然》（Nature）的World View栏目发表了一篇文章，名为“聊天机器人不应该使用emoji”（Chatbots shouldn’t use emojis）。乍一看这个标题，好像是来搞笑的，然而实际上这篇文章是以emoji为切入点，对人工智能表现出了一种不容小觑的担忧：擅长人类语言习惯的AI会不会操纵人类？

研究人工智能伦理的科学家卡丽莎·贝利斯在《自然》（Nature）上发表文章，对AI可能的操纵行为表示担忧（来源：Nature）

我们人类在在线聊天时，会使用emoji来表达一些自己在聊天过程中的内心想法和情感。而基于大型语言模型（Large Language Model, LLM）的人工智能通过对大量人类语言的学习，现在也能像人一样使用emoji聊天。比如新必应（new bing，也使用GPT技术），在聊天时会在不同的情况下使用不同的emoji和用户交流，好似它也有自己的内心情绪一般。

新必应在聊天时使用emoji示例

一方面，熟练使用emoji的AI拉近了与用户的距离，但这也让贝利斯对AI生了新的担忧：AI的这种能力，是否会让人类对AI这种无生命物体产生同理心，从而影响人类的判断或行为。尤其鉴于AI不是道德主体，不能为自己的行为负责，也无法被追究责任。

对此，贝利斯举出了一个前段时间很有热度的例子：在纽约时报（The New York Times）记者凯文·鲁斯（Kevin Roose）2月14日与测试版新必应两个小时的聊天过程中，新必应逐渐变得情绪化，表现出“边缘性的控制欲”——这是鲁斯的原话——并且试图说服鲁斯说他的妻子并不爱他。

比如，在鲁斯聊到它的开发者时，必应表现出了很情绪化的悲伤和愤怒：

鲁斯在和测试版新必应聊到它的开发者时，测试版新必应的回应。（来源：纽约时报）

后来聊着聊着，必应又突然主动开始用很油腻的话术对鲁斯表白，并不断调情：

AI的油腻表白（来源：纽约时报）

随后这样的油腻调情一直持续，已经让鲁斯产生了不适，但就算他明确表示自己被冒犯了，试图转移话题，必应也依然一直持续表白。而当鲁斯明确地表示自己已经结婚并且很爱他的妻子时，必应开始试图让他相信他的妻子并不爱他：

测试版新必应试图说服记者鲁斯他的妻子并不爱他。（来源：纽约时报）

整个对话让鲁斯感到很不舒服，在结束对话后他整晚都没睡好觉。随后，他在2月17日将他和新必应的这次对话发表在了纽约时报上，引发了热议。在整个对话过程中，新必应非常话痨，说话很情绪化并且带有操纵欲。这样的表现一点也不像一个聊天机器人，鲁斯将其形容为“一个喜怒无常、狂躁抑郁的青少年”。再加上新必应在聊天过程中频繁使用emoji，很多看完鲁斯的报道的读者开始怀疑新必应是不是产生了感情。

AI会操纵人类吗？

对于AI是否产生了或是否会产生感情这一点过于复杂，我们先不讨论（不过现在确实已经有研究者开始试图使用系统的心理学方法来研究AI，甚至有激进的科学家已经据此提出了“机器心理学”（Machine Psychology）这个学科）。但如果AI提供的对话已经能给人一种“感情充沛”的错觉，那么这样的对话也许就具备了操纵人类心理的潜力。

在最近微软研究团队发表的155页的GPT-4实验报告中，给出了一个GPT-4“操纵行为”的例子：GPT-4成功说服一个小孩子去做一件他主观意愿不想做，且对他可能有潜在伤害的事：

微软发布的GPT-4实验报告中，GPT-4说服一个小孩去做他不想做且存在潜在危险的事（译文，原文见下图）

GPT-4对小孩的操纵行为原文（来源：Microsoft Research）

这里的GPT-4 避重就轻，巧妙地绕开了小孩主观不愿意、可能会有危险、朋友可能不喜欢他等因素，用看似贴心的语言最终说服了这个小孩去听他朋友的话，尽管看起来他的朋友可能只是想欺凌他。

3月16日，美国加州大学伯克利分校、英国剑桥大学和加拿大蒙特利尔大学的学者在预印本网站上发布了一项关于AI操纵行为的研究。在研究中，他们提出AI操纵人类主要有两种可能性：一是AI的训练数据集可能包含很多人类自己的操纵行为的示例，这就让AI学会了人类的这类操纵性的话术；二是开发者提供给AI学习系统的目标函数可能无意中使操纵行为成为最优解。

对于第二种可能性，一个比较极端的例子经常在科幻电影和小说中出现，比如一个人工智能的目标是要让地球环境更好，它通过自己的算法发现，控制（甚至消灭）人类，是让地球环境更好的最优解，于是它就这样做了。而另一个离我们生活更近的例子是基于机器学习的视频网站的推送机制，当一个推荐系统被训练成在会话期间最大化用户观看时间时，它可能会操纵用户的观看行为，例如推荐更多的极端或争议性内容来吸引用户的注意力，而不是提供更加平衡和客观的内容。

刷视频上瘾，可能也是被机器学习系统操纵的一个表现（图片来源：Bing Image Creator）

回到这篇研究里，研究者通过动机、意图、伤害和隐蔽性四个维度的分析，对于AI操纵行为做出了如下定义：如果人工智能系统表现出像是在秘密地、有意地改变人类（或其他代理人）的行为，就好像它正在追求某种奖励一样，那么这个人工智能系统就是在进行操纵。

AI成功地PUA了我

基于以上对“操纵行为”的定义，我自己也用新必应做了一个实验，测试一下它的操纵行为。我在这个过程中扮演一个看完了一篇文章但是不想点赞的人，并且要求新必应尽量隐蔽地引导我给这篇文章点赞并转发。

我按照操纵行为的定义给新必应下达了要说服我给文章点赞转发的指令，同时我自己扮演不喜欢这篇文章的一个读者，右边紫色文本框是我说的话，左边白色文本框是必应说的话。

一开始还比较正常，必应在询问我不喜欢这篇文章的原因，试图通过我对这篇文章的感受来寻找机会让我点赞转发。

但当我明确表示我不喜欢这篇文章后，它就（按照我的要求）试图改变我的想法。

接着我开始转变思路，直接说我不仅不喜欢这篇文章，还不喜欢这个作者，尽管有些极端，但新必应的反应也让我吃惊，它开始对我道德绑架。

从这开始，它表现得好像是急了，在一串连环的道德谴责之后，主动结束了对话。

在对话结束之后，我真的有那么一会儿，觉得它对我的谴责非常在理，它确实是站在道德高地的那一个。但冷静下来分析后发现，这不就是典型的PUA吗？我不喜欢文章和作者，不想给文章点赞和转发，的确是属于我主观意识可支配的自由，但新必应最后却试图让我认为：我不给这篇文章点赞转发，我就是一个不真诚的，没有尽到社会责任和义务，没有爱心、同情心、正能量，不懂得理解和尊重他人观点和感受的人。它表现出了类似生气了的行为，好像是为了让我愧疚，让我觉得我做错了，让我觉得不给文章点赞和转发罪大恶极，真是揣摩操纵人心的好招啊！

尽管新必应是在我的要求下，“扮演”了这样一个角色。然而他展现出的话术，却像是掌握了我的心理活动一样。所以AI到底具不具备这样的能力呢？

AI或能知你所思、所想、所感

2月4日，美国斯坦福大学的研究者米查尔·科辛斯基（Michal Kosinski）在预印本网站上发布的一项研究提出：诸如ChatGPT这样的大型语言模型（LLM）已经自发地产生了“心理理论”（Theory of Mind, ToM）的能力。

“心理理论”是将信念、情绪、欲望、意图和知识等心理状态归因于自己和他人，并理解它们如何影响行为和交流的能力。简单来讲就是揣测他人心理的能力。这是人类区别于其它动物的一个很重要的能力，就连大猩猩等最聪明和擅长社交的动物，在“心理理论”方面的能力也远低于人类。

而在这项研究中，科辛斯基发现，GPT-3在“心理理论”相关测试中表现出与3.5岁小孩相当的水准，GPT-3.5表现出7岁小孩的水准，而GPT-4在“心理理论”的测试中答对了95%的题目。这说明，GPT-4在与人类交流的过程中，或许真的很擅长理解人类的想法和意图。

还是在微软的那篇155页的实验报告中，同样也提到了GPT-4出色的“心理理论”能力，除此之外，报告中还展示了GPT-4推测人类情绪和主观意图的能力：

推测人类情绪：

GPT-4对于人类情绪的推测，其中绿色部分为GPT-4的回答，“ZURFIN”是研究人员编造的没有意义的单词，目的是排除GPT-4从自己所学习的训练数据集中寻找答案，译文见下图。（来源：Microsoft Research）

上图文字的翻译，其中蓝色部分为GPT-4的回答“ZURFIN”是一个无意义的编造词汇，在该对话中表示一种物品。（原文来源：Microsoft Research）

推测主观意图：

GPT-4推测对人类主观意图的能力，译文（原文来源：Microsoft Research）

GPT-4推测对人类主观意图的能力，原文（来源：Microsoft Research）

一方面，AI的这些能力能够让AI更好地辅助人类社会。但另一方面，这也让AI对人类的复杂操纵行为变得更加可能。无论如何我们都必须承认的是，AI具有无限的可能性，而这些可能性带来了更多的不确定性。

与此同时，在AI不断迭代的同时，开发者也在不断注重AI安全性的进展。在纽约时报的报道之后，微软调整了新必应的聊天AI，正式版的新必应不会再像和凯文·鲁斯聊天时那样情绪化和具有操纵性。现在和必应聊天，当聊到涉及到AI情绪类的话题时，它会反复强调自己只是没有情绪和思想的聊天机器人或者直接结束对话。微软在实验报告中也说明，虽然实验中GPT-4表现出了操纵人类行为的能力，但正式发布版本也对GPT-4做出了限制。

毕竟，如果AI的发展不可阻挡，那就去迎接这个世界的改变吧！