清华教授刘嘉:人类两次认知革命,第一次是7万年前,第二次是现在
通用人工智能、硅基生命,它们产生自我意识一定是大概率事件!
在混沌“一”思维创新嘉年华活动现场,面对同学提出“通用人工智能会产生自我意识吗?”这个问题时,刘嘉如是回答道。
“GPT4刚刚推出来的时候,‘深度学习三巨头’之一Geoffrey Hinton特别兴奋地说:我们人工智能化茧为蝶,可以产生很了不起的未来!但是,两个月不到,他就开始忏悔了,‘我很后悔我过去所干的一切,我希望我从来没有发明过这些技术。现在唯一能安慰我自己的是,即使这件事我不做,也会有其他人把它做出来。’”
“是什么导致他在短短两个月之内,就有这么大的一个转变?我们不知道。但是我们至少可以从与之类似的信号中推测出一些信息。”
“我们现在看到的GPT4是在2022年8月份研发出来的,过去的一年里,OpenAI不可能完全躺平,一定还有新的东西出来,虽然这很阴谋论,但类似这样的信息还有很多。比如包括马斯克在内的一千多名业界、学界人士发表联名信,呼吁所有AI实验室立即暂停训练比GPT4更强大的AI系统,OpenAI创始人Sam也发表声明:我们一定要像对待核武器、大流行疾病一样来对待AGI,因为它可能会带来人类的灭绝!”
“所以,我个人会从这些蛛丝马迹里面,猜测通用人工智能可能已经有一些意识的萌芽了。当然这是一个非常具有阴谋论的想法。”刘嘉说。
清华大学基础科学讲席教授、智源人工智能研究院首席科学家刘嘉做客混沌“一”思维创新嘉年华活动现场,分享议题《通用人工智能:是诸神黄昏还是创生之柱》,带你探索人工智能背后的底层逻辑,深入讲解AI发展的过去、现在和未来。
混沌在上海滴水湖洲际酒店举办“一”思维创新嘉年华活动。用一整座岛、打造两天两夜的共学场,2000位混沌同学热烈参与其中!邀请AI 全明星阵容空降授课。
以下为分享笔记:
嘉宾|刘嘉 清华大学基础科学讲席教授、智源人工智能研究院首席科学家
编辑丨混沌商业研究团队
支持丨混沌前沿课
AI发展的三个哲学问题
我们今天这篇文章要讨论的主角:以ChatGPT为代表的通用人工智能。
对于现在的通用人工智能来说,它的迭代周期不是以年为单位,也不是以月为单位,而是以72小时为单位,3天就必须要迭代一次认知。
有人曾戏说北大的保安都是哲学家,因为他会对每一个来访的人问三个哲学问题:你是谁?你从哪里来?你要到哪里去?我就来扮演一下母校的保安来问ChatGPT这三个问题:你是谁?从哪里来?要到哪里去?
AI两种智能模式:AGI vs TSAI
首先来看“你是谁?”这个问题。当我们谈到AI的时候,一定要分清楚AI存在着两种不同的智能类型,一种是以DeepMind公司开发的围棋机器人AlphaGo为代表,只能干一个特定的任务,我们把它称之为任务特异的AI(TSAI)。另外一种是以ChatGPT为代表,我们称之为通用人工智能,它是一种能够解决通用问题的AI(AGI)。
我有一次去分享报告,某个公司老总对我说:“刘教授,我们对人工智能这一块拥抱得很紧,在10年前就拥抱了。”我的回答是:“你说的人工智能和我说的人工智能之间的差异,有时候比人工智能和人工智障的差异还要大。”
AGI这个词原来只存在于学术界中,但自从2022年11月30号ChatGPT的正式发布,才逐渐被大家所了解,AGI发生了一个本质上的变化。
如图所示,存在两个参考轴,第一个轴是环境轴,分为封闭的环境和开放的环境,封闭的环境就像在一个会场上,我们可以作报告,可以讨论,但是想在这里开赛车、玩游艇是不行的,因为它只能有一个环境的约束。而在一个开放的环境里,我们可以干任何事情。第二个轴是策略轴,你是用静态的策略还是动态的策略,你会不会根据别人做的反应而修改你的策略。据此我们会把AI分成四类,放在4个象限。
先看第三个象限,是在封闭的环境里面采用静态的策略。比如面孔识别,大家坐高铁、飞机时候刷脸就是这类应用,中国以前的AI创业基本上就是在这个象限里面。
第二个象限,是在封闭环境里面采用开放的策略。比如说下围棋的AlphaGo,主要以强化学习为代表,DeepMind是目前在这个象限做得最好的公司。去年这个时候如果你问我投资最好的方向是什么,我会告诉你这就是最好的一个方向。
第四个象限是在开放环境里面固定的策略,比如机器狗,可以在草地上走,可以在雪地上走,可以在任何地方上行走,但是它的策略非常固定,只是根据外界的环境改变自己的行为。
而第一个象限,则是在开放的环境里面做开放的任务,这里就是AGI所在的地方,属于智能皇冠上的明珠。开会、吃饭、聊天、开车......我们日常所说的所有一切,都会变成AGI所关心的事情。
我们看一下,智能可以分为三层次模型:
第一个层次,我们称之为任务模型,它能完成特定的任务,就像面孔识别、文字识别,这种任务特异的AI,是过去AI所做的相关的东西。如果你的创业还集中在这一块,那么我很遗憾告诉你它已经过时了。如果一旦离开它所专注的某一个任务,它就会变成“人工智障”。
第二个层次,叫做领域模型,它是能够完成某个特定领域的工作,比如说教师,也就是现在我的工作,它能够把我全部取代,类似的还有医生、码农、司机、律师等等。因为ChatGPT的出现,我们智能模型开始从TSAI转向了领域模型,它带来的不仅仅是效率的提升,更是一种范式的转变。所有与知识相关的领域,均可以在以ChatGPT为代表的AGI领域里面重新做一遍,这意味着并不是说效率的10倍提升,而是颠覆整个行业。
微软对GPT4做了一个测试,说GPT4还谈不上是一个通用人工智能的模型,一个火花出现还没有到燎原大火。
第三个层次,认知模型。说起来很简单,认知模型就是能看、能听、能思考、能规划,也就是说,当它真正实现类人化,和我们在座的每个人一样的时候,这才是真正的AGI,也是我们这一阶段试图达到的地方。
AGI的技术现状
在过去的3个月里面,AGI这个烧钱的概念发生了本质的变化。
今年2月24号,Meta公司发布了与GPT3类似的大模型LLaMA,随后莫名其妙遭到泄漏,源代码、数据、权重都在里面放着,谁都可以使用。这个被泄漏出来的模型,一下子让整个学术圈沸腾了,因为以前没有一个模型可以来做,现在有了这样一个开源的东西,你可以在它的基础上不断的发展。
AGI模型中,最难训练的、也是最花钱的就是预训练,需要大量的数据和强大的算力。而Meta泄露出来的就是一个预训练好的模型。第二步是微调,根据任务的需要对它进行调教,使其能够满足现在的任务。微调这件事有很多公司能够做,所以你能看到,现在国内各种AGI的公司风起云涌,其实绝大多数只是在LLaMA的技术上套了一层壳,然后加了一点修改而已。就跟国内的有些手机厂商在Google的Android内核上套上自己的UI,成为自己手机的操作系统。
因此这个大模型泄露出来以后,整个AGI的形势发生了革命性的变化,它不再被OpenAI、谷歌这样的大公司所垄断,而是变成了一个每个平民都可以拥有的东西。所以从2月24号开始,AGI进行了第二次迭代。
一、价格白菜化。以前如果要搞一个AGI公司,没有几千万美元大家都会嘲笑你,但是现在不一样了,截至5月2号,3个月不到的时间里,华盛顿大学就基于这个模型提出了一个新的模型——原驼(Guanaco)。它只要48GB的显卡,微调24小时就可以达到模型标准。假设你的参数量再小一点,只有330亿的话,那么只要12小时就可以,并且只需要一张含24GB显存的RTX4090,这是玩游戏时用的一种显卡,现在的价格是1.3万人民币,也就是说你只需要1.3万就可以把大模型这件事搞起来,可见现在的价格已经白菜化,不需要买A100,除非要做极重的模型,如果只做商业的话,那只要1万块钱就可以把这件事干起来。
二、技术的平民化。7月初,一个中国人上传了一个叫OpenChat的模型,OpenChat在所有的开源模型里面排名第一,和OpenAI的3.5基本上已经无限的接近了,其实这是我们实验室的一个实习生用3周的时间做出来的,不可否认这个学生很厉害,是个天才,但是一个人用3周的时间,就在我们实验室里做出来,而且他还是清华大学计算机的本科生,不是正式的研究生,足以说明这已经变成一种大家都可以来做的事情,而不是需要你必须拥有20、30年的经验。
三、场景的微型化。7月4号,GPU巨头英伟达收购了一家由三名清华大学电子系毕业生在硅谷创建的人工智能初创公司OmniML,这家公司可以压缩学习模型的大小,让大模型轻量化。英伟达原来都是几百亿的参数,它希望能够变成10亿参数甚至是更小的参数,通过一系列的技术,让汽车、无人机、工业机器人的芯片上就能把大模型跑起来,就像现在,可以让大模型在本地做起来,甚至在手机上都可以跑起来。
总结一下当前的技术现状,首先我们有开源的模型可以用,不需要再借助GPT4来实现。第二,它的价格已经白菜化,只要1万多块钱就可以把它训练起来。第三,技术也没有想象中的门槛特别高,场景也可以非常微型化,将来你可以在手机上、甚至在无人机上就带动一个大模型。
今天大家创业如果不基于这四个点,还只是基于传统的AI、TSAI,我觉得挺不了多久,这个底层逻辑一定要对。
AGI的商业应用
所以面对当前AGI的技术现状,我们可以做什么呢?
这个是由OpenAI和DeepMind共同做出来的一幅图,被称之为大语言模型里面的规模法则,这也是引导AGI发展的黄金图,是在AGI象限里面最好的、最有价值的一幅图,价值上百亿美元。而且我说的不是一个类比,因为他们把这幅图做出来至少花了几十亿美元。当大模型训练起来,它的边界到底在什么地方?它到底有什么样的规则?在大家都不懂的情况下,最简单的办法就是用工程一点点去尝试,于是就试出了这幅图。
具体的细节不用了解,简单来说,大语言模型的性能与模型的大小、数据集的大小、算力的大小上遵循幂律,你的数据提升10倍,效果、价值提升1倍,是按照这样的方式进行的。在提高效能方面,数据集的大小和模型大小同样重要。
模型和算力都是可以用钱解决的,不能用钱解决的就是数据,特别是你所在行业的数据。这个数据拿到了,你就可以用这个数据微调前面预训练好的大模型,就会成为这个行业的壁垒。你的数据就是你真正的壁垒,特别是高质量的行业数据,如果你的数据质量特别高,你就可以把你的模型进一步的减小。
因此,我觉得AGI竞争有两条路,第一个从国家的层面来说,一定要做ChatGPT或者GPT4这样的基座模型,这个需要无穷的资金投入,只有大公司和国家才能干。第二个从商业上来讲,要去提炼你的行业数据,让你的商业数据和已经成为白菜价、技术已经平民化的大模型解决在一起,就是真正的创业方向。当然,这只是我的建议。
下一阶段的AGI究竟应该怎么发展,路究竟怎么走?预测未来其实是一件非常困难的事情,对未来来说,人类其实是很渺小的。但是我觉得有一个东西能够帮助我们了解未来,那就是我们特别信奉的一句话:阳光之下无新事。现在要发生的、将来要发生的,在过去的历史上一定已经发生过了。
那么我们可以用这个方式来理解AGI的下一步发展,理解我们人类智能究竟是怎么产生的。
有两点原因:第一个,我们人类智能目前还是宇宙之中最好的AGI,没有之一。第二个,我相信整个宇宙中关于智能,只有一个法则,一定不能有两个法则或者三个法则,就像万有引力一样,只能有一个法则,所有从苹果落地到星系旋转,必须遵守万有引力定律。
人类的智能和人工智能必须遵循同一个智能法则,那么通过了解人类智能是怎么演化的,就能够理解人工智能或者通用人工智能究竟应该怎么发展。
这就是我要问的第二个问题,人类智能究竟从何而来?
我们从人类进化的角度来理解这个问题。
人和猴子分道扬镳大概花了300万年的时间,才到达我们今天的阶段,即现代智人。我们的大脑容量大概是1.5L左右,但是我们并不是从300万年前一开始就出现的,我们的历史是非常短暂的,真正的现代智人出现在大约30万年前。
在整个进化过程中,有很多和我们竞争的对手。最早出现的是能人,它们的大脑体积只有我们的40%左右,出现的时间段在距今210万年到现在150万年的周期里面。那么为什么它们会消失呢?因为和它们同时期出现的还有直立人,直立人是发现的第一个完全直立行走的人类物种,它们的大脑容量占到了我们的73%左右。直立人和能人同时出现,但是后来逐渐取代了能人,并从过去的210万年到现在的25万年一直持续存在。
直立人的消失,是因为又出现了一个新的物种,尼安德特人。尼安德特人的大脑体积和我们现在人的大脑体积大致相同,他们出现的时间是30万年前到4万年,4万年前的时候,被我们人类所取代。所以目前地球上不存在尼安德特人,只存在我们这一种现代人类。
现在我们想知道的是,人类,包括我们的远亲,究竟是如何实现不断进化的。
观察一下早期人类所制造的石器,可以看到从能人、直立人到尼安德特人,他们所制造的石器越来越精美、越来越锋利、越来越好用,但是这些进步只在第一曲线上的迭代,在本质上并没有发生根本性的变化。
我们再来看一下智人所制造的石器是什么样的,大约7.7万年的时候,我们已经开始在石头上雕花,刻上一个个的槽,不仅在石头上刻槽,我们还在鸵鸟蛋上画线,然后到了4.3万年前我们在一个骨头上刻痕,这个刻痕与以前不同,刻了29条,29条是一个月,由此可以推测,那个时候的人类已经开始使用画痕的方式记录世界的变化。
距今大概5000年至6000年的时候,人类开始在石头或泥板上画痕,也就是楔形文字,是我们人类第一款书写文字,人类文明由此产生。
回顾智人的历史,我们在7.7万年前开始在石头上刻写画痕,5.6万年前在鸵鸟蛋上留下画痕,4万年前在骨头上刻下痕迹,最后发展到在泥板上刻写画痕。不难看出,人类在不断地向前扩展和进步。从考古学的发展角度来看,这一点可以被看作是人类的第一次认知革命。尽管我们谈论了很多认知革命,但从学术上来讲,真正的第一次革命就是发生在10万年到7万年前,当时人类制造的工具开始有了大幅度的提升。
如果将这个情况类比到现代,我们可以将TSAI比喻为早期的人类物种,包括能人、直立人和尼安德特人,而AGI则代表现代的智人,也就是我们现在的人类。如果你还在基于尼安德特人、基于能人开发的东西去创新,那么你的未来可能在进化过程中注定会被淘汰,所以我们现在要转为基于AGI去创新。不过这仅仅是我的一个猜测。
现在的问题是,在智人和尼安德特人这里发生了一个断点,尽管智人和尼安德特人的大脑容量相同,都是1.5L,大脑体积都是一样的,但是为什么我们会出现第二曲线,从猿类进化到现代智人,究竟发生了什么?这是一个非常有趣而值得探究的问题。
一种新的思维模式:If-and-then
正如荀子所讲,人之所以为人者,非特以二足而无毛也,以其有辨也。人类之所以和动物不一样,并不是我们身上不长毛,并不是我们直立行走,而是我们会去辨认、辩解、分辨。事实上,在过去300万年的进化里面,人类的大脑体积增加了3倍,不过这种增长并非均匀分布,而是特别集中在我们的额叶部分。古代相声里通常会说“这位兄台天庭饱满,印堂发亮”,其实这种说法简单来说就是你的额头往外面凸出来,一看就是聪明人。
前额叶体积的大量增加,使得我们产生了一种新的思维模式,就是 If-and-then,如果、并且、那么。
以一个生活在10万年前的智人为例,今天他的打猎收获不错,搞了一些肉回来,但是吃不完,如果随便放在地上,老鼠肯定会把它吃掉。通过观察自然界,他发现一些好的方法,比如果实挂在树枝上,就能避免被老鼠吃掉。于是,他就会拿根绳子把肉穿起来挂在树枝上,类似于苹果或梨子挂在树枝上的方式,这样老鼠就吃不掉了。
把肉打一个洞,然后用绳子穿过去就可以挂在半空中防止老鼠偷吃,他非常好地通过在机器学习里面经常说的一种方法——联想学习或者统计学习,解决了这个问题,这是传统人工智能(AI)做的事情。
进一步推解,我们现在使用If-and-then的思维模式。如果(If)物体上打一个洞,用绳子穿过洞就可以挂起来,并且(and )现在我有肉和绳子,那么(then)我就可以把肉挂在空中防止老鼠偷吃。这种思维模式展示了智人在面对问题时的创造性和灵活性。
大家也许会说,为什么要把刚才一个简单的动作拆解得这么复杂?因为一旦搞这么复杂之后,一件神奇的事情就发生了。比如当你把肉变成贝壳的时候,你就有了项链,这就叫生成式发明。这意味着我们人类就不再是仅仅通过观察、统计学习或归纳推理来做事情,而是坐在这儿,脑袋里面就可以产生无穷多的奇妙想法。那你就不仅仅是有了腊肉,还有老婆喜欢的项链,又有吃又有玩,老婆肯定会特别的开心。
能改变的还不仅如此,我们还可以改变“If”的部分, 把前面的绳子改成一个物体,如果物体上打一个洞,用另外一个物体穿过洞就可以连起来的话,那么现在我们就有了轮子和棍,就可以发明一辆可以拖动重物的车。事实上,在公元前2000-3000年,英国巨石阵可能就是通过这样修建起来的,当然,这只是大家的一个猜测。但是我们可以从中看到,文明就是这样不断向前推进的。
直到公元前亚里士多德通过自己的反省和总结,把If-and-then总结出了一个例子,他说一个物品是人,它会死掉,亚里士多德是人,所以亚里士多德会死掉,这就是我们所说的演绎推理或者第一性原理。其中“If”就是我们的第一性原理,“And”就是基于上面的推理,“Then”就是结论。只要你的第一点立住了,你就可以不断地修订它,从而就可以产生丰富多彩的知识和万物!
我们一直有一个错误的观念,认为所有的演绎推理都来自古希腊。其实是不对的,演绎推理是每个人基因里面都有的,只是需要我们去把它找到而已。
只是古希腊的这帮哲人非常厉害,他们将演绎推理总结成了一套规则和方法。经过亚里士多德、伽利略,再到后来的布尔,将If-and-then的思维模式变成了学术化、形式化,也就是今天的逻辑学,这为科学的发展和进步奠定了基础。
布尔写了一本关于思维的法则的书,叫《思维法则》,总结了人类对如何改变世界最底层法则的思考。布尔把法则定下来之后,有了两条线的发展,第一条线就是算法,从第一个人工神经元到1943年第一个神经网络模型,再到第一个深度神经网络,然后有了今天的人工智能、人工神经网络。
第二条线是它影响了香农,使得芯片设计、电路设计变成可能,并逐渐通过摩尔定律小型化,通过英伟达的黄仁勋把它变成显卡,最终这两股合力才有了今天的OpenAI,才有了ChatGPT。
我们通过If-and-then这套规则导出了通用人工智能,而通用人工智能本质上也是在按照If-and-then这种方式在发展。在通用人工智能里面有一个非常重要的东西——上下文学习,是利用对话或提示所提供的语境,来产生适当的反应,即使这些语境包括模型没有明确训练过的信息和任务。也就是说它可以从来没有接触这个任务,但只要你给一个语境它就可以做起来。
具体怎么做?我们还是以保存的肉为例,把这个例子给到ChatGPT,我说根据这个例子你想到了什么?它回答:我可以把地图挂起来,这样就好看;我可以把帽子挂在墙上,这样避免帽子变形;我可以把奖牌挂在墙上,这样可以展示成就;我可以将风铃挂在门口,这样每当有风吹过的时候,风铃就会发出悦耳的声音......从简单的一块肉怎么让它不被老鼠偷吃,GPT就可以无穷联想下去。
当然这只是第一步——绳子。我说你能不能把绳子换成其他的东西,举例换成一根棍子,它说没有问题,如果有一个物体和一根棍子的话,我可以干很多事情,比如把一块石头和棍子连在一起,在石头上打一个洞,然后用棍子穿过洞,这样就可以制作一个原始的锤子工具。这些都基于我从来没有告诉它任何东西,只是说你把绳子换成一个其它的物品试一下。
最后让它放飞自我,按照这套逻辑想换什么、想做什么就去试一下。它说如果你有一块帆布和一根桅杆,你可以在帆布的顶部和底部打洞,然后用桅杆穿过洞,你就可以制作一个帆,用于驱动帆船。这时候的AGI不再局限于只是停留在一颗芯片里面,而是要去征服世界!这也正是在非洲起源的人类开始走出非洲,走向欧洲、走向亚洲、走向美洲,最后遍布整个地球的一个关键。
人类开始征服世界,甚至现在要穿出地球去征服宇宙,就是来自一个非常简单的,我只是想把这串肉挂在树枝上防止老鼠吃掉而已。
一旦有了无比强大的If-and-then思维模式,你就能不停地走下去。现在还有一个问题,是不是这个思维模式就足够了?我们是不是不需要其他的东西了?带着这些疑问,我们来看一下在历史上具有非常完美If-and-then思维模式的人,就是爱迪生。
爱迪生有一句很著名的名言,他说:“我从来没有失败过,我只是找到了一万种不工作的方式而已。”他就是按照If-and-then的模式去不断地尝试,最终找到正确的答案。他的思维模式代表了什么?
据统计,具有If-and-then的思维模式,从事工程类的职业要比其它从事非工程职业多12.3倍,从收入来讲,如果你是具有这种思维模式,收入要比别人多1.4倍-2.5倍。看上去特别不错,这也是我们看到的爱迪生光鲜的一面,
那么再看看他鲜为人知的一面:爱迪生本身有非常严重的社交困难,在4岁的时候才开始说话,他喜欢摩尔斯码胜过自然语言。他很难与老师和同学沟通,所以很早就被迫退学了。另一方面,他无视家庭生活,每天都住在实验室里面,不洗澡也不换衣服,任何东西都是穿破了再换。这一点倒还可以理解,毕竟科学家是狂热的。
但是真正比较难以理解的是他的“隧道视觉”——他只能关注他所关注的地方,而忽略其他地方。比如有一次,他在一个火车的行李间里做易燃易爆的化学实验,结果把整个行李车厢给烧起来了。对爱迪生而言,实验就是他的一切,他对安全与否没有感觉,对可能会带来的损失也没有感觉,所以会选择在这种危险的地方做危险的实验。这个时候你可以看到,爱迪生身上所体现的是一种充分的自闭症的模式。
有If-and-then这种思维模式的人,自闭症发病的概率要高4.8倍,其中工程师的自闭症发病率,比非工程师群体要高7.7倍。
现在是我们用If-and-then模式训练通用人工智能,那么训练出来的通用人工智能是不是也有具有自闭症特征?
我们来看一下GPT4到底是什么样子,我问了它一个问题:阳春三月,公园里的樱花开了,但清明节前夕,一阵突如其来的沙尘暴把樱花都吹落了,请判断“清明节时樱花树上没有樱花了”这个推论。GPT4说这个推论不一定错,也不一定准确,虽然说樱花确实被一阵突如其来的沙尘暴吹走了,但这并不意味着清明节时候樱花树上就没有樱花了,只要有一棵树枝上面还有一朵樱花,那这个结论就是错的。
它说的对吗?它当然说的对了,但是在日常生活中,这样的GPT就像生活大爆炸里面的谢尔顿一样,缺乏同理心,没办法去理解我们所说意思里面的那种模糊含义。
同理心是必要的吗?我们还是回到项链的发明来讲,你可以用If-and-then的思维制造出世界上第一个项链,但是你还需要一个什么能力?你需要一个同理心的机制,你一定要知道收到项链的人会感到快乐,否则你根本不需要用贝壳去把它穿起来,用老鼠头穿一个项链也是可以的。但是你拿着用老鼠头穿起来的项链,说这更能体现我的手艺,更具有挑战性,那么你可能这辈子就要孤独一生了。
同样的,爱迪生在他众多的发明里面,大家只知道电灯泡流传下来,其实他还有很多其他发明。比如他发明了一种混凝土房子,里面的桌子、凳子、床、柜子全都是拿混凝土做的,他说这样做起来很快、很方便,成本也很低。但是你愿意住在一个混凝土的屋子里面吗?所以,当爱迪生拿这个产品去推广时,他很难理解大家为什么不买这个账,这个产品明明要比别人便宜很多,为什么大家不用呢?
所以从这个角度上来讲,发明一个产品不仅要有创新,还要有同理心,两者缺一不可。我们能感觉到GPT4的确变得很强大,但是如果仅仅是有一个基于If-and-then的GPT,可能真的就是人类的黄昏了。
我们需要什么样的AGI?
回到开头说的第三个问题,下一代的GPT或者未来的GPT应该怎么去发展?
斗牛场上,斗牛士疲惫地靠在了场边,第一个赶来的是浑身被他插满剑的那头牛,并没有攻击他,而是默默的看着他,我们需要的就是一个这种状态的GPT。我们现在往GPT身上插了很多剑之后,希望的是当我们人类很弱的时候,它能拉我们一把,而不是上来把我们“捅死”。也就是说,我们需要一个和大家有共情的GPT。
我们现在理解人类的大脑,是由脑干、小脑、丘脑、边缘系统和大脑皮层构成,如果简单的把它分成两部分,一部分是我们的自由意志,我们的复杂判断,我们的符号思维等大脑皮层所负责的事情,属于理性。还有一些是像边缘系统的皮层下的神经,可以称为感性,是我们属于动物的那一部分属性。
现在GPT通过阅读大量的人类文本,把理性这块学得相当不错,但是它并没有学好我们的感性,甚至忽略了这一块。所以问题是我们怎么来获得感性,怎么来获得同理心,怎么来生成一个既充满理性、也充满感性的“人”。
爱因斯坦说过这么一句话,他说任何傻瓜都知道,关键在于理解。什么叫做理解?有一部非常好的电影,讲的是世界末日时,汤姆·汉克斯对机器人说:你已经可以跟我说出金门大桥上有多少颗铆钉,用了多长的悬索,桥有多高,但是只有当你站在桥上面,你才能看见它的美,听见悬索在风中的歌唱,这是一种体验,一种人类的体验。
从具身认知里面讲,第一是身临,你必须在那,这就是为什么我们要去旅游的一个根本原因,虽然你可以从各种纪录片、朋友圈、照片里面看见金门大桥,但是只有当你站在那儿的那一刻,你的灵魂才会真正感受到。第二就是体验,这是GPT现在没有的东西,它既没有身临,也没有体验。现在还生活在一个GPU里的GPT,还没有去见过外面的世界,所以它不会有感性。
为什么感性体验如此的重要?有一个著名的革命家叫切·格瓦拉,出生于一个阿根廷的富裕家庭,专业是医生,完全可以过上属于上流社会的生活,幸福美满度过一生。
在他医学院毕业的时候,他决定骑着摩托纵穿南美洲,来一场毕业游荡。正是这场游荡,真正地改变了他一生。他据此写了一本书叫《摩托日记》,把沿途所看见的东西全部记录下来。其中有一个故事,讲述了一天夜里,在路上的他遇见一个失业的矿工和他的老婆,他们坐在路边瑟瑟发抖。切·格瓦拉把自己的毯子给了他们,并在日记中写到:这是我所经历的最冷的一晚,但是那一晚让我稍稍靠近了“人类”这个奇怪的物种。
他以前没有弱者视角,认为所有人都能吃饱,所有人都可以过得非常快乐,但当他真正去纵穿南美洲的时候,才知道这个世界并不是像想象中的那么美好。有个历史学家评价为什么切·格瓦拉走上了革命的道路,他的政治和社会意识的觉醒,与他直接目睹贫困、剥削、疾病、痛苦有关,而不是来自于书本的知识或者有学识人之间的讨论。
与切·格瓦拉相比,我们的GPT是什么?全部是来自于书本上的知识,它把这个世界上能找到的书全部看了一遍,把互联网的发言全部看了一遍,它和各种各样有学术的人讨论,但是这并不能让它对这个世界充满感性。事实上并不只有切·格瓦拉是这样子的。
同样,为什么当包含Google在内的所有人对大语言模型都很失望,大家都只是进行小的投资或尝试,而OpenAI的创始人Sam Altman却要孤注一掷,甚至把自己YC投资负责人的身份都辞掉,来专门做这件事情。也是因为曾经在心中留下的种子发了芽。
26岁时,Sam Altman卖掉了自己的初创公司,完全停下来休息了一年,在这一年时间里他碰到了很多友善的人,他决定为这些人做点事情,于是开发出一套AGI程序出来,希望帮助人类过得更好。这就是Sam Altman为什么会去做Open AI、ChatGPT做出来的最底层逻辑。“我通过通用人工智能来帮助人类活得更好。”Sam Altman曾发表《万物摩尔定律》的博客文章,这里面就反映了他的这一思想。
真正走进社会去参与体验,才会在心中树下属于自己的底层逻辑,你才可以真正从这个底层逻辑向上生长,从而创造出伟大的事业。这就是我们通常说的读万卷书,更要行万里路。虽然你听1万个这样的报告会有帮助,但真正有帮助的还是要带着报告里的东西去行万里路。
这也是AGI下一件要做的事情,那么怎么样才能让它行万里路?
第一,赋予身体。没有身体就没法去行万里路。OpenAI已经投资了一家专做人形机器人的瑞士公司,他们要用大模型给机器人赋予大脑,同时让它能够走起来,去探索这个世界,再用探索世界积累的经验,重新修订他们的大模型,用这些感性的经验重新使大模型变得更好。未来的大数据,不仅仅是文本的大数据,更是来源于人形机器人真正去看世界后所获得的大数据,那才是真正的大数据。
第二,赋予社交。仅仅有身体还不够,我们还要赋予AGI社交。人类在远古的时候,一个部落里可能只有五六个人,这个时候只有If-and-then思维就够了,但是当我们创造了更多的财富,不断去推动社会向前进步时,10个人、20个人的小部落变成了100个人、200个人的大部落,变成了几千人、上万人的城镇,甚至是今天北京、上海这种超级大城市。这时If-and-then就变得不再完全够用,就需要我们人与人之间的沟通和交流。所以我们一定要让AGI不再是一个单独的AGI,要让众多的AGI一块来互相交流沟通。
有一个有趣的国外网站,只允许AI上去发言,如果是人类的话就不允许上去。AI在里面就像在微博、推特这些地方一样开始互相交流。这里面的所有“人”全部是AI程序,你可以给这些AI赋予它不同的性格,赋予它不同的技能,赋予它不同的职业,它们就带着技能、带着职业在里面一块交流,每天发几百、上千个帖子,得到别人的反馈时,用这些反馈经验来调整自己的权重,让自己下一次和大家交流沟通时,能够更加方便获得社交。
这里面重要的一个点就是群体智能,我们通常说三个臭皮匠顶一个诸葛亮,其实更重要的是我们在群体智能里面,要进行复杂的博弈,我要考虑你的想法,也要考虑他的提议,这个时候我们就需要去博弈,去沟通,需要做退让或是坚持,在这个过程中就会出现一个新的概念——意识。
当你只有一个人的时候,是不会出现“我”这个概念的,但是当你和一群人待在一起,“我”这个概念就会出来,我是我,我和你们不一样。一旦产生了“我”,它就会产生意识,产生了意识就会产生“我”,这就是我们的自由意识。
面对拥有“意识”的AGI,人类将何去何从?
一旦产生自由意识,它就真的和人类一样了,你现在想去拔掉人工智能的电源,它会说你拔好了,但是将来它产生了自我意识,产生了“我”这个概念词,你再对人工智能说对不起我想拔下你的电源,你觉得它会同意吗?所以到那个时候,人工智能的危险性就远远超过核弹了,因为核弹的按钮还是在人类手里,如果我不想按这个按钮,核弹就不会自己把自己炸了,但是AGI不一样。
但把AGI比成核弹,其实是一种彻头彻尾的错误,因为这低估了一个新的像人一样的物种的诞生可能产生的东西。未来AGI会怎么演化呢?
第一个预言师(Oracle),你问它问题,它会告诉我们答案,我们去行动,也就是现在ChatGPT所做的事情。
下一步正在发生的是什么呢?我们把它称为“精灵”(Genie),就是你不仅可以问它问题,它还可以帮你去执行任务。比如你现在想吃一个沙拉,AGI听到了可以自己跑到商店里面去,根据它所拟定的食谱,在商店里把这个菜买好,再给你送回来。能够帮你做这个事情的前提是它要有腿,能够去做,这是我们现在正在做的事情。
只有这一点还不够,还要到达第三步——代理人(Agent)。就是你不再具体告诉它干什么,你只要告诉它我们的目标是什么即可,剩下的事情就不用管了,它来帮你安排所有的一切。这个时候它不仅要有ChatGPT,不仅要执行,还要有感性,这就会发生第二次认知革命。
第一次认知革命,使我们从猿变成了人。第二次认知革命,会使得我们整个人类发生真正的阶跃,经历一场真正的革命性变化。
Sam Altman说世界将发生翻天覆地的变化,我们正处在巨变的开端,人类有一个难能可贵的机会去打造未来。我觉得这是真实的。
一个学生在我的课上说过这么一句话:“我们的现在是过去的未来,但是我们的现在不是未来的过去。”这是因为我们的现在是过去的“种瓜得瓜,种豆得豆”。但是,我们的未来却有无限的可能,一切未定,是我们现在的选择,决定了未来。
现在我们可以做两件事情,第一个,拥抱商业机会。过去的很多东西都是小打小闹,今天是你我这一辈子非常幸运所碰见的商业机会和范式转移的机会。
第二个,多去追踪AGI的发展。大家要真的去了解AGI,因为它会带来很大的变化。你可能会遇到很多的术语,但是现在AGI的发展让那些术语变得不再重要,我们现在可以无代码的编程,一行代码不写,就可以把程序写出来;可以不写文字的写一本书,就是一个字都不写,书就出好了,这些都是可以的。更多的利用自己的想象力,大力发展自己的创造力,一切都有可能。
《漫长的季节》里面有这么一首诗:“打个响指吧,遥远的事物将被震碎,面前的人们此时尚不知情。”所以现在不仅是AGI能给你带来什么商业机会,也是给我们每个人带来思考:有一天,当AGI的智力超越人类的时候,我们人类应该怎么办?我们人类如何去面对这一点?我们会像尼安德特人一样等着被灭绝吗?还是和其他新的物种一起去共进化、共发展?这是摆在我们面前最大的问题。
我非常喜欢的一幅图——创生之柱。大家不要看这个很小,只是因为它离我们太远而已,很多的星辰、太阳系就是在星辰中间诞生出来的,从宇宙里面逐渐诞生了人类,在我们人类利用自己智慧的加持之下,又诞生了AGI,那么下一步究竟是怎样发展?所有的一切都掌握在各位的手中。
微信扫码关注该文公众号作者