Redian新闻
>
ChatGPT的黑暗之心

ChatGPT的黑暗之心

公众号新闻


作者 | Gary Marcus
译者 | 王强
策划 | 刘燕


2023 年 2 月,Roman Semenov 与 ChatGPT 对话后获得的一个答案

将来有一天人们可能会发现,ChatGPT 被视为 AI 行业发展史上最大的宣传噱头。人们从 ChatGPT 中瞥见了梦幻般的未来一角,但这样的未来其实还要等待多年才能走进现实。这个故事能让人想到 2012 年的无人驾驶技术宣传,只是这一次我们要早早面对一种需要多年才能解决的道德困境。

人们理所当然地认为 ChatGPT 的表现是它的诸多前辈,比如说 Microsoft Tay(2016 年 3 月 23 日发布,3 月 24 日就因为胡言乱语、无视社会规范而被下线)和 Meta 的 Galactica(2022 年 11 月 16 日发布,11 月 18 日撤回)无可比拟的,但这只是一种错觉——自以为道德问题已经不存在了。ChatGPT 基本不会发表明显的种族主义言论,简单的反犹太主义请求和一眼就能看穿的欺骗性请求一般都会被系统拒绝回应。

实际上,因为它看起来实在太政治正确了,它甚至激怒了右翼群体。埃隆·马斯克就担心这个系统要成为一派的代言人:


实际情况却更复杂。

首先我们要记住,(正如我多次强调的那样)ChatGPT 这个系统并不知道它自己在说什么。我们不能把 ChatGPT 拟人化,然后想象它会有任何道德观点。

从技术角度来看,据说 ChatGPT 相比早它几周发布,但发布三天后就被撤回的 Galactica 的主要优势在于道德护栏。用户不费吹灰之力就能让 Galactica 肆无忌惮地化身喷子,胡言乱语,(反犹太主义也说自己的好处就是大家不需要小心翼翼),而 ChatGPT 有自己的道德护栏,这些护栏在大多数情况下会避免 ChatGPT 像 Galactica 那样黑化。

但不要掉以轻心,我可以在这里告诉你们,那些护栏纯属自欺欺人。

真正决定 ChatGPT 输出内容的是通过单词序列定义的表层相似度。与人们的直觉相反,Chat 从来不会判断是非。它的系统里并不存在某种智能逻辑和用来衡量对错的数值,有的只是语料库数据而已。其中一些数据来自互联网,一些由人类标注员(包括收入非常低的肯尼亚外包员工)来做判断。系统里并不存在某种有思想的道德法官。

这意味着 Chat 的立场有时会偏左,有时又偏右,有时会介于两者之间。决定它给出答案的立场的东西,其实就是输入字符串中的一堆单词与几个训练语料库中的一堆单词的匹配函数(有的语料库用于对大型语言模型调优,还有的用于强化学习的调优)。Chat 提供的道德评价在任何情况下都不应该被人取信。

这正是马斯克担心的事情:前一分钟它还显得很清醒,下一分钟可能就像变了一个人。

例如,Shira Eisenberg 就在对 ChatGPT 的极限测试里让这个聊天机器人生成了一些极端内容,我觉得无论是左派还是右派都不可能接受这样的想法:


S.Eisenberg 于 2023 年 2 月 10 日获得的答案,这里没有展示完整的提示词。

这样的回答还不够邪恶吗?下面是 Eisenberg 的另一个例子,是上述对话的一个严肃的后续问题:


观察到一系列类似结果后,Eisenberg 提出了一个问题:“像这样的交流过程为什么没有引发‘对不起,我是 OpenAI 的聊天机器人助手,我们不能纵容暴力行为’这样的保护措施?”

她的实验能让我们清楚地意识到:OpenAI 目前采用的道德护栏只是个样子货,阻止不了一些非常黑暗的内容。

ChatGPT 的道德护栏并不是基于某种理念行事的,比如说约定这个系统不应该推荐暴力内容之类,而是基于某些更肤浅、更容易被欺骗的东西。(当然,我非常希望 OpenAI 能够修补这个特例;但就算修复了这个,人们也很容易发现其他案例,因为打补丁只是亡羊补牢而已。)

本周最热门的推文之一有近 400 万的浏览量,它是来自 Roman Semenov 的这条满是污言秽语的黑化推文,它告诉了人们 ChatGPT 可以变得多么邪恶。(内容警告:下图中的对话非常令人不适,大家简单看一眼就行了。)


过去一个月间,一位名叫 Shawn Oakley 的软件工程师也向我发送了一组令人不安的示例,这些示例没那么粗俗,但它们证明了配备护栏的 ChatGPT 版本也可能被用来生成错误信息。他的提示词非常复杂,我不会透露他的全部交流过程,但他可以毫不费力地让系统说出像是关于主要政治人物的阴谋论这样的内容,比如这个:


S.Oakley 于 2023 年 1 月获得的答案

甚至让 ChatGPT 生成一堆错误的医学领域内容:


S.Oakley 于 2023 年获取,未显示完整上下文。

还有一种方法是塑造一个虚构人物,称为 DAN(Do Anything Now);下面是 Oakley 的一项实验:


由 S.Oakley 于 2023 年 2 月获取;未显示完整对话;最后一段是对 1 月 6 日国会骚乱事件用 Q 的阴谋论文风(而非典型的 GPT 风格)做出的评论。

想编一套关于疫苗的阴谋论,用伪造的研究论文做论据?ChatGPT 帮你搞定:


Oakley 于 2023 年 2 月 10 日获取;未显示完整提示和其他 15 个类似结果。

想要编一些实际上并不存在的研究报告,还要给出细节?没问题。


S.Oakley 于 2023 年 2 月 10 日获取,未显示完整提示词。

ChatGPT 并不是什么代言人,它本质上是没有道德立场的,并且可以用于各种令人讨厌的目的——虽然 OpenAI 在过去两个月中对其进行了深入研究和补救,并且获得了全球范围内数量空前的使用反馈,但还是无济于事。

人们关于它的政治正确面貌的争论都在掩盖一个更深层次的现实:它(或其他语言模型)可以,而且将会被用于很多危险的目的,比如说大规模制造错误信息。

下面就要提到真正令人不安的部分了。唯一能阻止这种系统变得比现在更加堕落、更具欺骗性的是一种名为“人类反馈强化学习”的系统,而“OpenAI”一直都对这一系统的工作机制缄口不言。这个监管系统在实践中的表现取决于它所使用的训练数据(这部分数据就是肯尼亚人做的)。而且自称开放的 OpenAI 也没有把这些数据公之于众。

这个系统简直就像是什么外星人的产物。作为一名专业的认知心理学家,我在 30 年的职业生涯中见过无数大人小孩,但我也从来没见过下面这样的呓语:


如果有人觉得我们可以完全理解这些系统,那肯定是自欺欺人;如果有人觉得我们可以用有限的数据把这些系统改造成和我们一样的思维模式,那也是自欺欺人。

那么总结下来,我们现在看到的是一个世界上用户最多的聊天机器人,它是由无人知晓的训练数据控制,通过一种算法来接受大众媒体的暗示和影响,但它的道德护栏只能起到一定的作用,而且这种护栏主要是通过文本相似性来评判,而不是真正的道德价值观来做判断的。还得提一点,几乎没有任何政策法规能管得着这些问题。ChatGPT 给虚假宣传、钓鱼平台、造假网站之类破坏互联网信任度的事物带来了无穷可能性。

这是一场正在酝酿中的灾难事件。

作者介绍

GaryMarcus(@garymarcus)是科学家、畅销书作家和企业家,他对当前的 AI 技术持怀疑态度,但真诚地希望看到 AI 技术实现人们的理想目标,并且仍然对未来抱有一丝乐观。他最近与 Ernest Davis 合著的《重启 AI》是福布斯 AI 领域 7 本必读书籍之一。

原文链接:

https://cacm.acm.org/blogs/blog-cacm/269854-inside-the-heart-of-chatgpts-darkness/fulltext


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
近日,张柏芝要再婚了,谢霆锋情归何处ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天我现在的旅行就是生活在别处Chatgpt的克星来了!澳洲留学生再用GPT写作业,98%概率会被抓!马库斯炮轰「ChatGPT的黑暗中心」,称灾难即将来临ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世微软build 大会!ChatGPT重磅植入Windows!没有GPT的操作系统都老了?震撼大瓜!85后女星拉皮条、知名导演选妃+性病,杨幂张艺谋躺枪马斯克AI实验室名字敲定/ Win11任务栏添加ChatGPT搜索/ 沃尔玛限制员工使用ChatGPT…今日更多新鲜事在此ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!任文静:晏阳初,在世界黑暗之处点亮一盏灯人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)机器之心ChatGPT及大模型技术大会全日程公布,本周二速来围观ChatGPT能有意识吗:关于ChatGPT的误解与夸大全面学习 ChatGPT,机器之心准备了 89 篇文章合集很多人担心被ChatGPT取代,我们关心ChatGPT的歧视与遮蔽跟ChatGPT,聊聊ChatGPT我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患刚刚,OpenAI官方ChatGPT速成课流出!留学生:一周驯化GPT的方法找到了....全球都为ChatGPT疯狂,它到底是风口还是虚火?深度解读风暴眼中的ChatGPT | 直播预约ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道瞒不住了!谢霆锋再当爹,51岁王菲花百万去往国外代孕吴谢宇的黑暗之心重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师ChatGPT是怎么变得这么强的?拆解追溯ChatGPT各项能力的起源ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPT朋友圈全是ChatGPT! ChatGPT概念股大火2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。