OpenAI创始人的AGI预言:AI Safety、Scaling laws与GPT-20|GGView
GGV有话说:
LLM、AIGC 的浪潮将 OpenAI 推到了台前,这家创立不到 10 年的公司肉眼可见地将整个科技界卷入新的范式迁移之中。OpenAI 可以说是几个天才科学家、工程师在资本支持下坚定不移地探索 AGI 的结果。
本篇文章编译自 Greg Brockman和 Lex Fridman 在 2019 年 4 月的一次访谈。Gerg Brockman 既是 OpenAI 的核心创始人之一,也是 OpenAI 重要的灵魂人物,在 OpenAI 的人才招聘、愿景塑造、内部 Infra 构建、工程文化打造等方面提供了决定性作用。
今天的GGView,我们就来看看OpenAI 内部是如何认知 AGI、以及如何一步步实现 AGI?
作者:Lex Fridman
编译:haina、zhipei
编辑:Siqi
来源:海外独角兽(id:unicornobserver)
01.
AGI 是由人类创造的最具变革性的技术
Lex Fridman:你如何看待人类的大脑?它是一个信息处理系统、不可知的魔法或者生物化学的视角?
Greg Brockman:把人类看作是信息处理系统是一个非常有趣的视角,这也是一个很好的视角去描述世界是如何运作的、大脑是怎么工作的。比如目前最具变革性的创新:计算机或者互联网,这并不只是光缆等物理结构,而是我可以立即跟地球上任何一个人联系,能够立即检索到人类图书馆里存在的任何信息。
Lex Fridman:所以作为人类智慧的延伸,整个社会也可以被看作是一种智能系统?
Greg Brockman:这也是一个非常有趣的视角,经济本身也是一个能自我优化的超级机器,每家公司都有自己的意志,每个人也有自己所追求的目标。某种程度上,人类总觉得自己是地球上最聪明、最强大的生物,但有些东西比我们更重要,就是我们所组成的系统。
阿西莫夫的系列小说 The Foundation Series 中有一个心理学史(Psychohistory)的概念:如果有数万亿或数千万亿的生物,那么我们也许可以从宏观上预测这个生物系统会做什么,这几乎跟个人想要什么无关。
此外,技术决定论(Technological determinism)也是一个很有趣的角度:没有人能发明出别人发明不出的技术,最多改变的是变革发生的时间,对于同类产品,其中某一个最终能成功的原因可能在于其初始条件的不同。比如电话是两个人在同一天发明的,这意味着什么?大家都同样在巨人的肩膀上创造,你不会真的创造出别人永远创造不出来的东西。如果爱因斯坦没有出生,那也会有其他人提出相对论,只是时间线不一样,可能还需要二十年,但这并不会改变人类注定发现这些真理的事实。
人们正在进入通用智能技术快速发展的时代,革命性的变革一定会在某个时间点发生。我认为核心是要保证 AI 在正确的方向上发展,放大它的正面效应。这也是我们在设定 OpenAI 的非营利属性、以及又提出 OpenAI LP 结构的出发点,我们需要保证 AGI 的发生。
Lex Fridman:AGI 将如何影响世界?
Greg Brockman:回顾 AI 的发展史,基本上在过去的六七十年中,人们一直在思考:如果人类智力劳动可以自动化,会发生什么?如果我们可以创建一个这样的计算机系统,世界会变成什么样?很多科幻小说讲述了各种反乌托邦(Anti-Utopia)的故事,也有越来越多像“Her”这样的电影像我们展现了乌托邦的视角。
在思考 AI 可以带给世界什么样的影响之前,我们可以先想想自行车、计算机对人类世界产生的影响,尤其是计算机对互联网上的影响远超过我们所能预测的,所以,如果能构建 AGI,它将是人类所创造的最具变革性的技术,但我们还在寻找创建 AGI 系统的方法。
6、70年来,人们普遍对 AI 愿景感到兴奋,但现实进展并不顺利,经过两个 AI 寒冬后,人们似乎不再谈论 AGI,但我认为这并不是 AGI 不存在,而是因为人们从过去 AI 发展的历史上吸取了足够多的教训,变得更加审慎。
1959 年,世界上最早的神经网络之一感知器(Perceptron)诞生,随即引起了大规模的关注,当时纽约时报发布了一篇文章,认为感知器有一天可以识别人类,喊出他们的名字,可以在不同语言之间来回翻译。当时的人们都不相信,甚至花了 10 年时间反对感知器发展方向,最后结果是资金枯竭、大家开始转向其他技术方向。
感知器(Perceptron)是弗兰克·罗森布拉特在1957年就职于康奈尔航空实验室(Cornell Aeronautical Laboratory)时所发明的一种人工神经网络。它可被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。
一直到 80 年代开始新一轮技术复兴,有人说这种复兴是因为反向传播(Backpropagation)等算法等的出现,但实际上是因为我们的计算能力更加强大。从 80 年代的文章也可以看到,计算能力的民主化意味着我们可以运行更大的神经网络,进行更多尝试,反向传播算法因此诞生。当时运行的神经网络很小,可能只有 20 个神经元,因此系统的学习效果并不好,直到 2012 年,这种在 50 年代就提出的最简单、最自然的方法才突然成为解决问题的最佳方式。
• 反向传播(Backpropagation):“误差反向传播”的简称,一种常见的人工神经网络训练方法,它在 1986 年被提出。其缺点是所需计算量较大,且会随网络层数的加深呈平方级提高。
• 上世纪 80 年代是计算元器件发展的重要时期,英特尔系列微处理器与内存条技术广泛应用,让神经网络逐渐步入繁荣,并出现了深度学习、卷积神经网络、循环神经网络等新的技术和应用。
我认为深度学习有 3 个值得关注的核心属性:
1. 泛化(Generality),我们用少数几个深度学习方法解决大部分问题,比如梯度下降、深度神经网络以及一些强化学习,解决了语音识别、机器翻译、游戏等所有问题;
2. 能力(Competence),深度神经网络可以解决计算机视觉 40 年研究中的任何问题,甚至有更好的效果。
3. 可扩展性(Scalability),实验一次又一次地向我们证明:如果有一个更大的神经网络,有更多的训练数据,它的工作效果会更好。
这三个属性是建立 AGI 的基础,但并不代表只要扩大神经网络规模就能实现 AGI。但重点在于,这让我们第一次感受到 AGI 是可以实现的,虽然时间点并不确定,但我认为肯定在我们有生之年内,并且会比人们预期早很多。
在这样的远景之下,我们在 2015 年创立了 OpenAI 。我认为 AGI 可能比人们想象中更快到来,我们需要尽最大努力确保一切顺利进行,所以我们花了几年时间试图弄清楚我们需要怎么做。
02.
OpenAI 的创立与设计:确保 AGI 顺利发生
Lex Fridman:OpenAI 是如何成立的?
Greg Brockman:通常情况下,一家公司的发展路径是:往往先需要联合创始人、构建并推出了自己的产品,基于产品积累到一些用户、得到相应的市场反馈,如果发展顺利的话也可以通过融资来雇佣更多的人来扩大公司规模。在这个过程中,几乎每家创业公司都需要面对大公司带来的潜在威胁,大公司注意到你的存在并试图杀死你。
但 OpenAI 完全把这条路反过来了,这和 OpenAI 在起步时的现实情况有关。
第一个问题是 OpenAI 起步得太晚。当 2015 年 OpenAI 创立的时候,AI 已经从纯粹的学术研究转变为商业领域所期待的某种具体产品或工具,和业界结合得很深,因此即便有很多优秀的学者都想建立自己的实验室,但他们作为个人所积累的资源不论到达怎样的高度都很难跟大公司相媲美,OpenAI 作为一个初创团队更要考虑这样的问题。
此外,我们也在担心一个现实问题,OpenAI 想要建立的东西真的能落地吗?这需要一个临界质量(critical mass),而不只是由我和我的联创们合作推出一个产品即可,需要至少 5-10 人团队,这可能不容易,但值得尝试。
临界质量(Critical Mass):核物理学术语,刚好可以产生连锁反应的组合,称为已达“临界点”。
Lex Fridman:如何看待在 AGI 的发展中,不同公司之间的竞争以及合作?
Greg Brockman:做 AGI 的开发工作,弄清楚如何部署它,让它继续下去,要回答一个关键问题。
第一个是构建第一个 AGI 的过程。拿自动驾驶作为对比,自动驾驶是一个竞争非常激烈的赛道,因此该领域内的玩家在选择自己的技术路线面对极大的压力:如果要保证技术安全性,就意味着技术实现的周期会被拉长,导致的直接结果就是很大可能落后于其他竞争者,所以大部分参与者选择了相对更快的。
OpenAI 的选择是不竞争,即便其他人领先,我们也不会走快速而危险的道路去试图跨越。只要他们想做的和我们的使命一致,我们就承诺与他们合作,帮助他们成功。如果大家都认为 AGI 是让每个人都受益的东西,那么哪个公司构建它并不重要。从而形成良性的合作,实现 AGI。
Lex Fridman:如果 OpenAI 成功创建了一个 AGI 系统,你会问它的第一个问题是什么?
Greg Brockman:如果我们真的建立了一个强大到足以影响人类未来的 AGI 系统,我会问它的第一个问题是:如何确保 AGI 诞生之后世界仍旧在正常轨道上运转?
就像核武器诞生后,全世界面临的最重要的问题是它会给世界带来什么样的变化?如何保证核武器时代的世界和平?对于 AGI 来说,虽然它和核武器不同,但作为一个全新的变革性的技术,我们同样也要确保它不会给既定的世界和社会秩序带来负面影响。
不过,在关注新技术负面性的同时,人们常常也会忽略一些正面影响。既然如果我们有一个足够强大的 AGI 系统,我们肯定也需要它为我们提供建议,询问 AGI 并不代表必须听从 AGI 告诉你的建议,但当 AGI 足够强大的时候,它所输出的信息可以被人类作为参考。如果它像人类一样聪明,甚至它的能力可扩展,人们肯定也希望它能阅读并吸收人类所有的科学文献、为绝症治疗提供方案、利用新技术创造更加丰富的物质、在保护环境等重要问题上给出建议、甚至方案。
Lex Fridman:如何看待关于 AGI 可能带来的负面效应?
Greg Brockman:这里面涉及到两个问题:
首先是,如何向大众描绘一个新技术带来的新世界。
比如,放在 1950 年我们要向别人介绍什么是 Uber 相当困难的事情。因为我们首先需要让对方理解什么是互联网、什么是 GPS, 以及每个人都拥有一部智能手机这些基础前提。所以要让大众客观评价某个变革性技术的第一个难点是,如何让他们想象出这些变革性的技术如何在世界上发挥作用。而 AGI 会比之前出现过的技术都更具变革性,这一定程度上加高了人们的理解门槛。
第二点则是人们天然更倾向去支持负面,因为摧毁一个新事物总是比创造容易,不仅是在物理层面,更在思想层面,大部分人可能一看到负面消息就走进了死胡同。
所以面对 AGI 的负面效用的更积极的心态或者办法是坦然承认 AGI 的优点和缺点,这也是 OpenAI 看待 AGI 的态度,我们根据现实来判断风险,并基于这些判断来构建自己的组织和系统。
为了保证 AI 能够更多地发挥它的积极效应,在 OpenAI 的构建中,我们主要关注 3 方面:
• 第一,推进系统迭代更新的能力;
💡
在 Sam Altman 的 AGI 宣言中,Sam 也提到,短期内,采用快速学习和谨慎迭代的紧密反馈循环,长期来看,过渡到一个拥有超级智能的世界。
• 第二,确保安全(AI Safety);
OpenAI 正在研究技术机制来确保 AGI 系统符合人类价值观;
💡
OpenAI 一直对外强调其使命是确保 AGI 造福全人类,AGI 如果被成功创造出来,可增加世界丰富度、推动全球经济发展以及帮助发现改变可能性极限的新科学知识,来帮助提升人类。
• 第三,政策(Policy)。
确保我们有一个治理机制来反馈系统可能出现的问题。技术安全可能是人们谈论最多的问题,比如那些反乌托邦的 AI 电影,很多都是由于没有良好的技术安全导致的问题。
很多人之所以认为技术安全是个棘手的问题,是因为“安全”本身很难被精确地定义和描述,在人类社会的治理中,我们有很多明确的规则,例如法律,国际条约等等,但同时也有一些无形的规则。如何告诉系统哪些是安全的信息、哪些是不安全的信息也变得十分困难。
这也是 OpenAI 技术安全团队的重点:让系统能从数据中学习人类的价值观,从而和人类的伦理道德观念保持一致。可以类比到一个人类个体的成长,一个婴儿会成长成一个好人还是坏人,很大程度取决于它成长的环境以及因此接收到的信息质量,如果看到正面的榜样,就会接收到正面的反馈。所以我认为 AGI 也是一样,系统可以从数据中学习,以得到符合人类伦理道德的价值观。
到目前, OpenAI 的系统已经可以学习人类自己也无法明确描述的规则了,虽然仍处于概念验证的早期阶段,但 OpenAI 模型已经具备学习人类的偏好的能力,它能够从数据中了解人类想要什么。
Lex Fridman:《人类简史》这本书中的一个观点是人类世界并不存在客观真理,如果没有绝对的对与错的标准,要如何保证模型、算法的“持续正确”?
Greg Brockman:OpenAI 的政策团队(Policy Team)在做的工作则是让模型更了解“什么是对的”。GPT 的确已经强大到可以回答任何用户想要知道的问题,但最重要的问题是,我们的用户是谁:他们想要什么,这又会如何影响到其他人?我们只需要类比到现实世界就知道这件事情有多难:现实世界中不同国家、人种、文化背景的人对于世界如何运作和所崇尚的价值观都有着不同的理解。所以对于 OpenAI 团队,这件事不亚于一个新的社会治理议题。但一个强大的系统也会赋予人类更多权利。
这种情况正以不同的方式发生,有一些定律也正在被改变。比如摩尔定律,摩尔定律被工业界整整信奉了 50 年,但最后发现还是失效了。
💡
2018年,OpenAI 发布了 AI and Compute ,在这一篇研究中提出自 2012 年以来,最大的 AI 训练运行中使用的计算量呈指数级增长,2012 年到研究提出该指标增长了 300,000 多倍,翻倍时间为 3.4 个月,而摩尔定律的翻倍期为 2 年,如果按 2 年翻一番只会产生 7 倍的增长。
所以我们不能抱希望于自己能够发明出别人发明不出的东西,最多只能改变时间线。如果你真的想有所作为,唯一能做的就是在技术诞生之初,设定一些初始条件来确保它的顺利发生。比如,在“互联网”刚被发明的时候也有很多竞争对手发明出类似于互联网的产品,但互联网之所以能成功,离不开它最初设定的初始条件:互联网允许人们成为任何人,以非常开放的心态联系沟通。我相信下一个 40 年也会继续这样发展,或许过程中也会转向,但这些初设条件对互联网的成功非常重要。
03.
如何构建真正的 AGI
Lex Fridman:OpenAI 最近发布了 GPT-2 ,但没有发布完整的模型,官方说明是因为担心可能会产生负面影响,这也引发了社会层面的讨论。这里的负面影响和积极影响分别是什么?
Greg Brockman:我们现在正处于扩大模型的道路上,并且随着模型规模的扩大而实现更好的性能。GPT-2 只是 2018 年 6 月 GPT-1 的放大版。我们未来要扩大它到上千倍,不知道最终会得到什么。可能 GPT-2 不具有负面应用,但 GPT-20 的能力会是实质性的。
GPT-2 潜在的负面影响在于它可能会导致产生假新闻或滥用内容。比如一定会有人尝试在 GPT-2 基础上使用自己的 Facebook 消息历史记录,来生成更多 Facebook 消息,进一步,这种行为就会带来生成制作虚假的社会性、政治性议题、政治家内容的可能性。
而正面影响是,GPT-2 的确带来了有很多很棒的应用程序,开发者可以使用 GPT-2 来衍生出很多很酷的想法。很多人写信给我们,希望能把它用于各种不同的创意应用。
GPT-2 推出后带来的应用场景包括:
1. 文本生成:GPT-2 Poetry;GPT-2 Dungeons and Dragons character bios;
2. 聊天机器人:Thomas Wolf 团队在 PERSONA-CHAT 数据集上微调了 GPT-2,建立了带有角色个性的聊天机器人;
3. 机器翻译;
4. 文字总结:在 CNN 和《每日邮报》的数据集上进行了测试。
所以如果要真正考虑安全性。对于 GPT-2,是否公开发布各有利弊,但未来模型的到来可能比预期要快,扩大模型并不需要很长时间,未来的模型是绝对不能公开发布的内容。我们把不公开发布 GPT-2 视为一个测试,实现社会心智的过渡。
GPT-20 是 Greg 在当时对模型能力能够达到质变节点的预测,从后视镜视角来看,Greg 对于模型参数量扩大后的能力提升预测还是相对保守,因为在 3 年后 GPT-3 就已经实现了这样的目标。
Lex Fridman:你认为 GPT-20 时候的世界是什么样?就像在 50 年代,人们试图描述互联网或智能手机。我们将成功设计识别机器人与人类的系统,还是人类不得不接受并习惯充斥着假新闻的世界?
Greg Brockman:有一个十分流行 meme (模因)可以用来回答这个问题:一只机器人物理手臂正在点击“我不是机器人”的身份验证按钮。我认为人类最终无法区分机器人和人类。不可否认的是,人们在未来所获取的信息中有一部分一定是通过自动生成的,因为 AI 足够强大,以至于人们无法分辨出人类和人工智能分别产出的信息之间的差异,甚至最有说服力的论点反而是由 AI 提出的。
Lex Fridman:你认为语言模型最终可以发展到什么程度?类似于电影 Her 里面。人类与 AI 通过自然语言的多轮对话可以通过这种无监督模型来实现吗?
Greg Brockman:大语言模型应该能够真正理解微积分,并解决新的微积分问题。我们需要的不仅仅是语言模型,而是解释和推理的方法。
语言建模实际上已经走得比许多人预期的要远。GPT-2 还没有来自于自身的动态经验,只是一些可供学习的静态数据,所以它对物理世界的理解程度很浅。如果我们能够让它真实地理解物理世界就已经相当令人兴奋。
但如果仅仅只是扩大 GPT-2,也并不足够让模型具备推理能力。人类是通过思考产生新的想法、获得更好答案,并且思考的过程一定会花费大量计算能力,这种模式没有被编码在 GPT 中。分布式泛化(distribution generalization)也很有趣。对于人类来说,即便有些时候没有经历过某件事,但也会对这件事有一个基本的思考与理解,这与推理有关。
为了真正构建 AGI,一方面需要在计算规模上尽可能地推进,另一方面还需要在人类自身思考和认知的实质性推进。
我们应该找到一个可扩展的方式:投入更多的计算、更多的数据,让它变得更好。我们之所以对深度学习、构建 AGI 的潜力感到兴奋,部分原因是我们研究出了最成功的 AI 系统,并且意识到如果扩大这些系统的规模,它们会更好地工作。可扩展性给了我们构建变革性系统的希望。
Lex Fridman:创建 AGI 或一些新的模型的过程中,如何在它们还只是原型阶段的时候就发现它们的潜在价值?如何能够在没有规模化的情况下坚持这些想法?
Greg Brockman:我们自己就是很好的案例。OpenAI 在 6 月 28 日发布了 GPT,后来我们将其放大到 GPT-2。在小范围内,GPT 它创造了一些记录,它不像 GPT-2 那样令人惊艳,但它很有希望。
但是有时规模化后与我们在小范围内看到的内容有质的不同。最初发明者会说,我不认为它能做到这一点,这就是在 Dota 看到的。Dota 基本上只是大规模地运行 PPO,长期来看,这些行为在我们认为不可能的时间尺度上真正发挥作用。
PPO:Proximal Policy Optimizaion,近端策略优化算法。PPO 提出了新的目标函数,可以在多个训练步骤实现小批量的更新,解决了 Policy Gradient 算法中步长难以确定的问题。
Lex Fridman:随着 GPT 规模的不断扩大,可能人们会看到更加令人惊讶的结果,很难看到一个想法在规模化后会走多远。
Greg Brockman:Dota 和 PPO 是一个非常具体的例子。关于 Dota,有一件事非常令人激动,人们并没有真正注意到,那就是分布中泛化的法令(the decree of generalization out of distribution),它被训练来对抗其他 AI 玩家。
Lex Fridman:未来几年深度学习将走向何方?强化学习的方向在哪?对于 OpenAI ,2019 年你会更关注哪些方面?
Greg Brockman:规模化地开展更多创新的项目。
OpenAI 内部有一个项目的生命周期。先从几个人开始,基于一个小的 idea 展开工作,语言模型就是一个好的例子。一旦在过程中得到一些有意思的发现和反馈,我们就扩大规模,让更多的人参与其中,同时投入更多的计算资源。最终状态会像 Dota ,由 10 或 15 人组成的大型团队,以非常大的规模运行事情。将工程和机器学习科学结合在,形成一个系统展开工作、并获得实质性的结果。整个生命周期,端到端,需要 2 年左右的时间才能完成。
OpenAI 内部也有更长的生命周期项目。我们正在组建一个推理团队去解决神经网络推理这件事,这会是一个长期、但一定有超预期回报的项目。
Lex Fridman:讲讲 Dota 的训练过程。
Greg Brockman:Dota 项目是我们迈向现实世界的重要一步,相对于象棋、围棋等其他游戏,Dota 作为一个复杂游戏连续性更强,在 45 分钟的游戏中,玩家可以进行不同的动作和策略组合。Dota 的所有硬编码机器人都很糟糕,因为它太复杂了。所以这是一个推动强化学习最新技术的好方向。
硬编码(hard coding):将数据直接嵌入到程序或其他可执行对象的源代码中的软件开发实践,而不是从外部获得数据或在运行时生成数据。
我们在 2017 年在 Dota 的 1V1 对战中成功击败了世界冠军。学习技能曲线是一个指数函数,我们一直在扩大规模,修复错误,从而获得了稳定的指数级进展。
Lex Fridman:Dota 是一个非常受欢迎的游戏,在全世界有很多很资深的人类玩家,所以在 OpenAI 和人类的 Dota 1V1 对战中,要获得成功的基准是非常高的,最初是怎么训练这些 AI 的?
Greg Brockman:我们使用的方法是自训练。我们设置了两个没有任何经验的 Dota AI 玩家,他们互相争斗;他们不断发现新的对战技巧、继续斗争。之后我们从 1V1 扩大到 5V5,继续学习团队行动中需要做的协调,在 5V5 版本游戏中达到专业水平,难度指数级上升。
这件事与昆虫的训练方式有很多共同点。但昆虫在这种环境中生活了很长时间,并且有很多经验。站在人类的角度来看,昆虫并不聪明,但昆虫其实能够很好地驾驭它所处的环境,甚至处理周围环境中从未见过的意外事情,我们在Dota AI玩家上看到了同样的事情。在这个游戏中,他们能够与人类对战,这在其进化环境中从未存在过。
人类与 AI 的游戏风格完全不同,但 AI 依然能够很好地处理这些情况。这没有从较小规模的 PPO 中出现。之后,我们运行 10 万个 CPU 内核、数百个 GPU,这个规模是巨大的,我们开始从算法中看到非常不同的行为。
Lex Fridman:Dota 在 1V1 比赛中打败了世界冠军,但目前还没有赢得 5V5 的多人比赛。今年接下来的几个月会有什么变化?
Greg Brockman:OpenAI 的 Dota 团队一直在与比我们模型更好的玩家进行比赛,虽然我们最终输掉了两场比赛,但这也确实表明我们已经处于专业水平。我们内部很相信它在未来会取得进一步的胜利。
但其实赢或输与我们思考即将发生的事情的方式无关。因为我们的目标并不是在 Dota 比赛中击败人类,而是推动强化学习达到最先进水平,所以某种程度上我们已经做到了这一点了。
温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~
欢迎大家进入公众号页面,右上角点击“设为星标”点亮⭐️,收藏我们的公众号,新鲜内容第一时间奉上!
*文章观点仅供参考,不代表本机构立场。
微信扫码关注该文公众号作者