为了保护人类，这些高材生选择放弃高薪

2023-04-23 10:04

*本文为「三联生活周刊」原创内容

AI会成为人类的生存威胁吗？即使AI技术正在渗透到生活的方方面面，但对大多数人来说，这一问题仍然只代表一种不断被科幻作品演绎的可能性，很难争论出结果。

然而，有一批技术人员已经为此放弃了顶尖高校或科技大厂的岗位，转投到人工智能安全（AI Safety）的研究，在实践中评估当今的机器智能距离安全边界还有多远。一年前还在美国加州大学伯克利分校读博的中国女生杜浩星就做出了这样的选择。这一年，她有怎样的工作经历和认知？以下是她的口述。

口述｜杜浩星

记者｜张宇琦

AI脱离人类控制的能力有多大

我在2023年初来到对齐研究中心（Alignment Research Center，下称ARC）工作，这是2021年成立的一家专注人工智能安全（AI Safety）研究的非营利机构，办公地在美国加州湾区。ARC的创始人保罗·克里斯蒂亚诺（Paul Christiano）在人工智能业界是一位备受尊敬的人物，曾经在OpenAI领导对齐研究团队。因为曾经身在前沿，他对深度学习如何发展到今天有很深的了解。

作为第三方评估者，ARC主要与领先的人工智能实验室合作，评估他们研发的最先进的机器学习模型是否具备潜在的危险能力。OpenAI在3月14日发布GPT-4时说，这代模型在2022年8月就完成了训练，之后经过了6个月的调试和安全性评估——当时，OpenAI找到一些研究机构，说“这是我们刚造的模型，请你们来测试一下它是否存在安全风险”，ARC是其中之一。在一定程度上，OpenAI也摆出了一种姿态，即他们对安全性是存有真正顾虑的，愿意为此延迟发布成果。Anthropic在同一天发布的Claude模型也经过了ARC的评估。

2018年，第十四届中国国际公共安全保障展览会上，参观者在屏幕上观看一个AI安防软件程序（视觉中国供图）

究竟什么是人工智能安全？到目前为止，它的定义其实还不够清晰，不同的人会用这个词谈论不同的东西。简单来说，我们认为人工智能可能带来的危险有很多种。有些人关心的是，当今一些模型的训练中包含了我们人类社会的偏见；有些人则担心，有不良企图的人在AI系统的帮助下，能更有效地做坏事，比如散布谣言；还有人担心强大的AI系统本身，一旦它们偏离人类设定的目标自主行动，会造成严重的后果，比如说操纵股票价格、设计合成DNA等。这些不同的话题，都在人工智能安全研究关注的范畴之内，也可以被统称为“对齐问题”（the alignment problem）。

听上去，对齐本来不该是一个问题。因为AI系统既然是人创造出来的，那么大家默认它一定会按照人类的意图做事情。比如你造一架飞机，想让它飞到哪里它就会飞到哪里。但这恰恰是人工智能和其他技术最大的区别。至今为止，我们经常看到的情况是训练人工智能系统完成一个目标，最后却发现它学到了一个不太相关的目标。

比如说，我们想训练一个强化学习智能体（reinforcement learning agent）走出迷宫，结果发现，它只是学会了走到地上表示出口的箭头处，而不是出口的门。如果把门和箭头画在不同的位置，它走到箭头处就停下来了。再比如，曾经有人模拟了一个有四条腿的、具有动物身体形态的机器人，想教它从随机的动作开始，学会走路。他为此设立了一个奖励机制，如果前进两米，机器人就可以得两分，让前进的距离和分数呈正比。但后来发现，这个四腿机器人学会了往前摔倒，因为它每扑倒两米，就能得到两分，这成了它的策略，和设计者最初想象的完全不一样。类似地，GPT最初接受的训练只是读文本，预测下一个字词，但在训练过程中，它自己学会了加减乘除、写代码，还具备了一定的逻辑。

《机械纪元》剧照

从这些例子可以想象，要控制人工智能系统还是很难的。随着系统的能力越来越强大，不再局限于某个领域的单一任务，比如下围棋或人脸识别，对齐问题也就越来越紧要。有些人仍然对人工智能安全持质疑态度，认为担忧模型失控太“科幻”了，但我觉得，我们不如实际看一看，今天的模型到底在做什么。如果要脱离人类的控制，它需要做到什么？它现在的能力离这种可能性还有多远？

GPT-4面世后的这一周，外界对ARC的关注多了起来，导致我们有些手忙脚乱。我们正在准备一份更长的报告，应该会在近期发布出来，在其中解释我们具体的工作方法和研究结果。我们也在3月18日发表了一篇公开博客，里面可以看到一些简要的结论。比如，这些当下最新的模型仅具备编写文字和运行代码的能力，还不能自主地创造和进行我们试图评估的危险活动。虽然执行时并不完全可靠，但它们能够成功完成这些活动的几个必要组成部分，在浏览互联网、让人类为其做事以及制订长期计划等简单任务上取得了一些成功。

测试GPT-4的安全性，
就像解剖“外星生物”

作为ARC评估组的成员，我的工作看起来很像程序员，每天要坐在电脑前写很多行代码。因为GPT-4是OpenAI私有的大模型，我们并不能获取它内部的秘密、接触到原理，只是在输入、输出的操作层面进行测评，和普通用户的体验差不多。

除了ARC这种外部视角的实践型研究，另一种安全性研究关注的是人工智能系统的可解释性（interpretability）。例如，之前我在另一家对齐研究非营利组织Redwood Research实习时，研究了一个开源的人工智能围棋模型Leela Zero。我把它的整套代码和参数下载下来，试图分析它的内部结构、下棋时采取的策略，以及是否能从中提取一些围棋知识。这些参数是经过训练得出的，一眼看去，只是一堆数字，完全看不出它们运行着怎样的计算，而模型的秘密就在于此。

图 | OpenAI官网

做这个研究项目时，我常常感觉眼前有一个外星生物，我需要去解剖它的身体结构。这样说好像有点血腥，但我确实像设计生物实验那样，对比进行两个输入后，模型内部进行的计算有什么区别，以此来证明我的假说，确定某个部分承担的任务。如果可解释性研究相当于观察外星生物的内部，那么通过聊天测试GPT-4安全性的感觉，有点像第一次接触到了外星人。

最近一两年有不少人在做可解释性研究，但我们现在面临的问题是，能不能从中总结出更高层的教训，发展出一套像读心术一样的操作工具来帮我们理解模型内部发生了什么，因为如果每一个模型都得从头开始研究，是不切实际的。另一方面，现在很多人已经开始认为，当模型最终变得更大、发展更快的时候，这种从内部研究的方法就行不通了。我们目前能够理解的模型都比较小，没有那么复杂。在Redwood Research，我们研究过的最大的模型就是GPT-2，最小的只有GPT-3的千分之一。而GPT-3可能已经过大，导致我们没有办法理解它们。这就好比之前我们解剖的是一只青蛙，它没有那么多的神经元，没有那么多的肌肉，两下就看明白了，但是最终我们想要解剖的是头猛犸象。

实际上，在这一行我本人也算是半路出家。之前，我曾经是加州大学伯克利分校的物理学博士生，研究的主要方向是量子信息理论，也就是量子计算机背后的理论。转到人工智能安全研究后，我感到比较大的一个挑战就是，在这个领域工作要学很多新的内容。因为技术都是过去几年才出现的，不会像物理学知识那样，已经存在了几十年甚至几百年，写成了教科书，很多代人都沿着同样的道路学过。做人工智能可能就得靠自己，要想搞明白最新的模型到底是怎么回事，就只能去读论文，或者去问人，甚至手动实践，看自己能不能复制出同一个结果。

其实，人工智能安全这个领域的一个很大问题就是，它太年轻了，从业人员也一样，没有什么人知道哪一种方法最终可以奏效，所以大家都在尝试很多不同的东西。甚至会出现这样的情况，一群人觉得可解释性非常重要，但他们做了一段时间，觉得没有那么重要了，就去做别的。这是经常出现的情况。

另一个问题是，安全领域内部也有一些派系斗争，人们会觉得自己担心的安全问题最重要，其他人的担心不重要。但我觉得这是非常不可取的，大家应该合作来给政府和人工智能公司施压，让他们担起分内的责任。我们必须合作，因为本来就没有多少人。前不久有一个分析报告指出，尽管过去六七年里，加入这一行的人数呈指数级增长，但据估算，目前全世界全职从事人工智能安全研究的技术人员只有300名左右。

《模仿游戏》剧照

和时间赛跑

在人工智能安全领域，的确很难找到“科班出身”的技术人员。我身边的同事和小伙伴，有不少人和我一样是做学术研究出身，之前的专业领域从计算机科学到哲学都有，从物理学转行的也不少。还有一些人原本是大厂的程序员，或是知名人工智能公司的技术人员，都因为担心人工智能的安全风险而转去一些非营利机构工作。客观地讲，这些机构提供的薪资比大厂要少一些，但竞争的却是同一批技术人才。

这个领域目前吸引到的人，基本都有强烈的内心动力，甚至有一种“以天下为己任”的使命感。事实上，当你承认人工智能存在安全风险这种可能性，再亲眼看到有很多人在不顾风险地推进他们的研发，相信只要研发速度越快、系统越强大就越好，你很难不提出疑问：为什么有这么多如此不谨慎的人？能不能都停下来喘口气，仔细思考一下我们到底在做什么？

2022年12月，我正式退出博士项目，成为人工智能安全的全职研究者。在一些人看来，放弃学术这条路可能是个比较艰难的决定，但说来惭愧，我其实没有犹豫很久。一部分原因是，我在2020年疫情期间开始读博，最初只能上网课，连同级的小伙伴都没有见过；另外，我很快发现自己感兴趣的方向和学校的科研优势不太匹配，选择导师和课题的过程都不是很顺利。所以入学不久我就在考虑，如果不读博的话，还有哪些职业选项。不过，如果我面临这个职业分岔路的时间点是在五六年前，很可能不会转到人工智能领域。

我是2015年出国来到南加州哈维穆德学院（Harvey Mudd College）的。整个本科期间，我的学术兴趣有点过于广泛，对各种理工科的知识都很有兴趣，反而对机器学习这个领域有些瞧不上。2016年AlphaGo发布后，大家都觉得很神奇，讨论人工智能的人忽然更多了。但直到那时，我都觉得这个领域背后没有太多深刻的思想，没什么意思，还是更想做理论物理的前沿研究。

《模仿游戏》剧照

和很多人一样，我完全没能想到人工智能会发展得这么快。在本科的一门计算机课上，我们曾经讨论过怎样写生成自然语言的代码。那时我感觉这个问题太难了，应该是我们这代人有生之年都无法解决的。但是到我读研究生的阶段，大模型取得了很多重大的进展。2020年，GPT-3模型刚发布时，外界关注还不多，我从一个研究机器学习的朋友那里听到消息，就去试了一下和它对话，感觉非常震撼，几年前还看似无解的难题就这样被克服了。我甚至感到，我们已经身处一个不一样的时代了，新时代到了。

读本科期间第一次接触人工智能安全的思潮时，我还觉得那些有关人类命运的担忧非常抽象，而且不切实际。但两三年过去，这些问题已经可见地出现在我们的生活里。我开始从切实的角度仔细考虑，同样是前沿研究，从事量子计算和人工智能会有什么不同的影响？很多人都相信，当我们的技术有所提升之后，就能造出来足够好的量子计算机，对世界产生真正的影响。但在这一天到来之前，我们还需要经历很多步骤，甚至不知道多少年以后才会实现。而人工智能已经对世界产生了实在的影响，因此理解它就更加重要。至少对我个人来说，这一点足够明确。这种紧迫感让我不想等到博士毕业，最终下决心提前转行。

研究人工智能安全，的确像是在和时间赛跑。我虽然没有在大厂工作过，没法进行比较，但在这一行，大家普遍会有机不可失的紧迫感，认为如果你能把一件事快一些做出来，为什么要花费更多时间？但同时，已经有同行在强调，我们应该可持续发展，不能一直处在危机中，否则会把自己的热情消耗殆尽。还有人提出，我们是不是应该用更高的薪资去吸引那些顶级技术人员加入安全研究，即使他们不见得同样担心技术的社会影响？

我相信我们应该通过自己的行动来介入新技术可能带来的社会风险问题，这种信念也受到EA（Effective Altruism）运动的影响。在中文里，EA对应的是有效利他主义，我其实不太喜欢这个翻译，因为它听起来非常有棱角，却没有明确它代表什么。EA的核心观点是，我们应该最大化自己所作所为的积极影响，提倡定量思维。

《华尔街之狼》剧照

我对EA的最初印象来自于偶然读到的一本书，澳大利亚哲学家彼得·辛格（Peter Singer）所写的《你能拯救的生命》（The Life You Can Save）。他在这本书里提出了一个很有名的思想实验：一个人走过一个池塘，看到一个快要溺死的小孩，如果下水去救这个孩子，可能会毁掉他的高价衣服。这种情形下，一般人都会认为有道德义务去救这个孩子；但同样的人，很可能不认为有同样的义务去救助遭受贫穷和饥荒的非洲孩子，即使他们的生存所需和那件衣服的价钱一样。辛格认为，如果拯救行动的效益是一样的，我们不应该把距离作为道德上的考虑。

有很多EA运动的参与者都加入了“给予我们所能的承诺（Giving What We Can Pledge）”，自愿每年捐出自己十分之一的收入，并且会严格筛选捐赠机构，我也是其中一员。EA参与者特别喜欢问“世界上最重要的问题是什么？”，最常关心的议题包括消除贫困、公共卫生、气候变暖以及核安全等可能对人类构成生存威胁的问题。其中，也有很多人爱谈论人工智能这项重要技术。我身处的伯克利分校是EA运动地理上的中心区域，这里经常可以看到身着EA文化衫的人。如果你看到一群人坐在一起，激烈而直接地讨论着世界上的重要大事，很可能他们也是EA参与者。

我时常会反思自己是如何走到今天的。我一直喜欢思考社会问题，高中时曾经非常想做记者。不论具体做什么，我一直没有停下来思考，怎样去过一种良善的人生？如何活得有意义？我一度觉得，能学自己想学的、做自己感兴趣的事情是最重要的，但现在，我会觉得这个世界上真的有更重要的问题和相对不太重要的问题，希望自己可以为解决那些重要的问题尽一份力。

下个月我马上要休假回国，将近四年没有回去，稍微有些忐忑。如果和很久没见的朋友见面，不知他们会不会觉得我太脱离现实，为什么要每天想这种事情？不过，从去年大模型引起更多人关注后，我发现身边很多朋友都对安全问题感兴趣，只是大家平时不习惯深入讨论这种看似遥远的问题。