刘嘉:刚刚这三个月里,AI又发生了巨大变化!
从2022年11月30日ChatGPT问世至今,通用人工智能领域以72小时为迭代周期,不断更新。在过去的两个月里,这个领域又发生了翻天覆地的变化。
对比之前热度很快退却的AlphaGo,让我们不禁产生疑问的是,为什么ChatGPT可以保持如此旺盛的生命力,使它的热潮一直从去年延续到现在?
刘嘉老师指出,虽说都叫人工智能,这两者之间的区别比人与猴子之间的区别还要大。AlphaGo是任务特异的人工智能(TSAI),只能完成一个特定的任务;而ChatGPT是通用人工智能(AGI),可以解决通用的问题。
通用人工智能的火花将不可逆转地带来众多行业的范式转移,世界将发生翻天覆地的变化。
10月27日,清华大学基础科学讲席教授、智源人工智能研究院首席科学家刘嘉老师在混沌一年一度创新力大课上,讲述人工智能领域的最新发展趋势和最新研究成果,分享AI发展带给我们的挑战和机遇。
ChatGPT出现,更多的工作岗位将被取代
“通用”到底有什么样的意义?
我问ChatGPT,它的“通用”究竟体现在什么地方?它的回答非常简单,听上去特别朴实无华,它回复:“我只能提供信息、回答问题、进行对话,生成有创造性的内容”。
那我们来看看它是如何提供信息、回答问题和进行对话的。
一个妈妈问ChatGPT:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’,那它会长什么样子?”
于是,ChatGPT就将这只“超级向日葵刺猬”画了出来,它没有简单地回答“我也不知道”,而是用图像的方式形象地将它展现出来,在这里我们可以看到很多具有创造性的元素。
妈妈接着问,这个向日葵刺猬的“超级”体现在什么地方?
ChatGPT进一步回答说,它的超级体现在两点:第一,它用向日葵花瓣做它的刺,这点很酷;但更重要的是,它很善良。在这里,ChatGPT将这个问题上升到意义的层面。
这时候妈妈又问,可以根据这些为我的小朋友写一个睡前故事吗?
ChatGPT说没有问题,马上写了一个故事出来。在这个故事中,柳树“Willy”闷闷不乐,它说它帮助不了其他人。超级向日葵刺猬“Larry”却安慰它:你已经帮助了其他人,当疲倦的旅客在你的树荫之下享受清凉的时候,你就帮助了他们。每个人都有特别的使命。这时候Willy意识到,我们每个人都有自己的用处:
于是,一个简单的睡前故事具备了引导小孩成长、意识到自己独特天赋的重要意义。而这一切都在ChatGPT的一个“响指”之下。在这个响指之下,我们写绘本的人可能就要失业了。
以前可能有人会说,我能写出很好的故事,但自己不会绘画,所以不能把故事以绘本的形式呈现出来。但现在这一切都迎刃而解了,你只需要把你的故事告诉ChatGPT,它就可以生成与之相配的动漫人物和场景。所以现在限制我们的不再是绘画的技术,而仅仅是想象力。
我以前是学心理学的,所以总开玩笑说毕业后找不到工作就可以去街上算命,左手心理咨询,右手茅山道士,看一下掌纹。后来发现ChatGPT完全可以做这些,我曾经让它帮我看掌纹和面相,它都分析得头头是道。当然我们知道这一切都是迷信,但是从另外一个角度看,那些街上摆摊算命的人,会因此丢掉工作。
如果说上面提到的只是玩笑和娱乐,那么当我们进入一些专业的领域之后,问题就变得严肃起来了。假设我们给ChatGPT看的是胸片、心脏血流的灌注图,看的是大脑的功能结构,它是不是能看出我们现在是否患有肺癌,我们心脏是否有梗塞,我们大脑是否萎缩或者有一些器质性病变。如果可以的话,95%以上的医生就会因此而失业,因为它会更加准确。
有这样一个真实的测试,一家公司在相同的时间布置了相同的任务给两位程序员,其中Alex是一个具有16年编程经验的资深程序员,而另外一个人是只有4年编程经验的新手程序员。一周之后来检查他们完成的工作量时,发现资深程序员的完成度只有7%,而新手程序员已经完成了95%,因为这个经验较少的程序员使用了一个叫做Copilot的编程辅助工具。也正是因为如此,新手程序员的最终成本只有2800美元,而资深程序员预计总成本却要达到56000美元。于是资深程序员最终被淘汰。
同样的,我们再来看教育领域。猿辅导和作业帮的拍照搜题,是非常便捷且成熟的一项应用,在GPT4发布后却受到了剧烈的冲击,新增客户大量减少,企业股票断崖式下跌。
这是因为以前我们所说的所有的人工智能,都是基于垂直的小模型,无论是微软的小冰还是我们现在的语音助手,以及一些拿来识别医疗图片的人工智能,这些垂直小模型的人工智能与通用人工智能的区别,就好像当年的尼安德特人与智人之间的区别。
在2022年10月30日之前,我们所有的人工智能都是任务模型(TSAI),能够完成一个特定的任务,它能做数学题、能识别面孔、能够下围棋、能够组装设备,它比我们在座的所有人类都要厉害,但是一旦涉及这个任务以外的内容,它就立刻从人工智能变成一个人工智障。
后来在ChatGPT的帮助下,任务模型逐渐转向领域模型,它可以完成一个特定领域的工作,比如教师、医生、律师、程序员、司机……所有与知识有关的领域都可以在ChatGPT的基础上重新做一遍。这将导致一个问题,上述所有职业从业者都将面临失业,他们的所有工作都会被ChatGPT代替。
高盛做过一个调研,在美国,大约7%的工作岗位可以被AI取代,也就是说相应的行业不再成立;63%的工作岗位会得到AI的辅助,就像我刚刚提到的程序员;仅有30%的工作岗位没有受到AI的影响。总之,可能有3亿的工作岗位将会被AGI取代。
AGI的目标:范式转变与服务价格降低
AGI的出现是为了让每个人失去工作?其实不是这样,这时候要思考一个非常重要的问题,什么是工业革命的本质?
我们用一个例子来说明这个问题。阿加莎·克里斯蒂是作品销量达到全球前十的一位女性推理小说作者,而她在未出名之前,只是普通的英国中产阶级的一员,在1919年年收入是700英镑。她当时说,“我们永远想不到有一天会拥有汽车,这是一个奢侈的念头,只有富人才配拥有车。”
当时最便宜的车是170英镑,的确对年收入为700英镑的阿加莎来说是有挑战性的,但这并不是她买不起车的关键,因为有些东西更加便宜。当时阿加莎家里请了一个住家女佣,每年花费36英镑,还有一个全职的住家护士帮助她照顾孩子,年薪40英镑。
她的生活和我们现在中产的生活是有区别的。当时的中产可能买不起一辆车,但现在的中产买一辆车并不是太大的问题,我们唯一要考虑的是买百万豪车还是普通一点的车;另一方面,阿加莎请得起一个住家的护士,这却是我们大多数人做不到的。因为过去的一百年里,在工业革命的推动下,我们的商品价格急剧下降。
这充分体现了摩尔定律:处理器的性能大约每两年翻一倍,即计算价格下降为之前的一半。在过去的几十年里,一美元能购买到的算力是急剧增加的,现在一个手机的算力,远比70年前第一台通用计算机ENIAC的算力大得多;而当时一台计算机的价格要上亿美元,现在的一部手机却便宜得多。
另一方面,与商品价格的急剧下降相对应的,工业革命带来的另一个结果是服务的价格快速上涨。1923年,英国一个护士一年的年薪是25英镑到50英镑;而现在,英国一个护士一年的年薪是24000—30000英镑。折算购买力后,我们服务的价格上涨了12倍,在其他领域或许会更多。
我们当下所面临的问题是,一方面我们的商品越来越便宜,另一方面服务的价格越来越高。在这种背景下,OpenAI的创始人Sam Altman曾说,我们可以通过两种途径获得美好的生活:
第一,个人获得更多的财富,使个人变得更加富有。但是我们知道,世界的资源总是有限的,当你获得更多财富的同时,必然有人会变得更穷,我们的贫富差距永远是这样子。Sam Altman指出,这条路永远是饮鸩解渴,解决不了任何问题。
第二,让物价下跌,让所有商品的价格,不仅仅是电视、汽车,还有服务价格全部归零。Altman提出,在未来,AGI将创造惊人的财富,一旦有足够强大的人工智能加入劳动力大军,很多劳动力的价格(驱动商品和服务的成本)将逐步归零。那么我们生活所需要的一切的价格都会降低,我们只需要有很少的钱就可以很好地生活。
总的来说,第一次、第二次、第三次工业革命的本质是让商品的价格降下来,与之相应的服务的价格升上去;而第四次工业革命则将借助通用人工智能,把服务的价格打下去。
值得注意的是,通用人工智能的出现并不仅仅是让我们多了一个增效的工具,而是发展了李善友教授经常讲的“第二曲线”。第二曲线的本质是1962年库恩在《科学革命的结构》里所提出的,叫做范式转换——科学的进步不是通过渐进的知识积累实现的,而是通过一系列革命实现的,在这一过程中一种主导范式将被另一种替换。
范式转变是人们对周围世界观念和认知的根本性改变,它涉及支配性思维方式、基本假设和实践的转变,构成了某个知识领域或学科的基础。它发生在新证据出现之时,现有的理论和信念受到挑战,产生对主题的全新理解。
简而言之,范式转变是一种革命性的、底层逻辑上的革命,无论是思考方式、观念都将发生本质的变化,这是AGI给我们带来的全新方式。
自主代理:先思而后行
Sam Altman基于摩尔定律提出万物摩尔定律:我们需要颠覆性的政策变化来分配财富,从而使更多人可以追求自己想要的生活。
在这个理念的指导下,Sam Altman提出了一个全民基本收入计划(UBI),因为通用人工智能创造足够多的财富,每个成年人每个月都能无条件获得一笔收入:$13,500, 来维持基本的生活所需。一方面有13500美元的物质支持,另一方面商品的价格又在归零,这时候,人们不再需要为五斗米折腰,可以真正享受自己的生活。
这也许听起来更像是乌托邦式的幻想,事实上Sam Altman已经在斯坦福大学建立UBI实验室,来研究计划的可行性,并且在美国巴尔的摩社区推广这件事。他希望改变按劳分配的分配方式,将它变成真正的按需分配,这是他心中创造AGI的最底层使命和真正的愿景。
那么,如何实现万物摩尔定律?
这里我们要提到的重要尝试是自主代理(Autonomous Agency),它不同于传统的AI,自主代理通过分析感知数据,独立思考,然后调用工具去实现对通用问题的自动化处理。简单点来说,就是给我们的ChatGPT或者GPT4等等装上感知和行动,让它变成了一个完整的人,不仅拥有大脑,也拥有四肢。
那么这时候,我们的AGI由“问它问题,它告诉我们答案,然后我们去行动”的ChatGPT模式转变为了“不仅可以问它问题,还能让它执行任务”的ChatGPT + Autonomous Agents。
举一个简单的例子。一个人要出门,问今天要下雨吗,ChatGPT的感知系统听到了这句话,就去上网搜索今天的天气预报,并根据它的历史知识来规划不同的雨应该带什么样的东西,最后它的判断为今天要下中雨,应该准备一把伞,然后就给它的动作下一个指令,把伞送给主人。
于是,你只是问了一句简单的“今天要下雨吗”,就看到一个机器人默默地递了一把伞给你。而它的思考工作全部在内部完成了,它和传统的AI,那些垂直小模型最大区别就是拥有了一个大脑,实现了真正的智能。
除了处理日常生活中的小事,自主代理在专业领域的表现也同样出色。比如说我要创建一本针对初学者的关于减肥的教育短篇电子书,它会说没有问题,并制定了一个详细的计划。先是收集信息,然后整理信息,撰写电子书,还要制作图像、设计封面,再创建一个落地页或者网站,供用户下载电子书;最后还要进行推广,并且监控电子书的表现,根据用户的反馈进行调整以提高效果。
再比如我要卖一种T恤,这种T恤是花里胡哨的,有各种各样的颜色。当我把这句话说完的时候,它就开始规划分析。要办一个网站卖一个衣服,那么首先需要宣传品,它马上给我做一个广告,一个关于T恤的视频;接着帮我把网站搭好,并且将网站需要的口号放进去;然后再把衣服给设计出来放到网站上。但这仅仅是个开始,一个顾客在购买的过程中提出衣服的款式很好,但颜色太过艳丽,这个命令传到它那里,它马上根据顾客的需求将颜色调得素雅一些。这就相当于有一个不知疲倦的设计师在跟顾客不停地沟通,直到顾客满意为止,然后将这个订单马上送到工厂。
在以上全部的过程中,我们只是给了它一个需求,它就把剩下所有的事情帮我们干完,这就是我们现在所说的AGI的“先思而后行”。
Everything as a Service
如果说我们以前还会因为语言不通而放弃一些国外的商业机会,那么现在我们完全不需要有这样的顾虑。在AI Agent的帮助下,我们可以轻易实现语言的无缝切换,不管一个人说的是什么语言,我们都可以通过AI的技术,将他的语言转化为我们所需要的。在这里,我们不仅能听到自由切换的语言,说话人的嘴型和他的发音也是相匹配的,并且他说的话不仅仅是机械式的翻译,而是保留着说话人本身的情绪特点,我们感觉到是一个真人在和我们对话。
再下一步,我们甚至都不需要人来说这段话,而是让一个机器坐在那儿,通过大语言模型来和你进行对话,连客服都省掉了。这时候我们就进入到一个全新领域,Everything as a Service,所有的一切都是以服务的方式来提供。
第一个层面是Infrastructure as a Service,就是我的基础设施作为一种服务。比如说可以租用微软的服务器,把ChatGPT给训练出来。
第二个层次是Platform as a Service,我不仅给你提供硬件,还给你提供平台。比如说我把Windows、Lineks、Uniqueks给你装好,把一些数据库的程序给你装好,你可以在上面来做各种各样的开发,我们现在所说的云计算就是在这个层面上做的。
第三个层次是Software as a Service,以软件的方式给你提供服务。比如我们苹果里面的iCloud 、文件分享、还有我们大家熟悉的office的组件word、PPT等等,逐渐都会变成SaaS,将来不需要下载到本地来使用。
以上都是大家所熟悉的框架,但是这个框架马上会有一个革命性的变化,因为SaaS可以进一步演化成大语言模型,也就是第四个层次Language Model as a Service。
今年2月24日,Meta正在研发的LLaMA数据泄露,大家都可以拿到它完整的代码、数据和权重,所有人都可以在此基础上共创,整个社群瞬间爆发,上百万的程序员涌入LLaMA。于是在短短几个月,在百万的程序员、各种科研和商业的共同加持下,它走过了GPT3到ChatGPT3.5的两年所走的历程,形成这么一个庞大可用的东西,同时导致三个根本性的变化:
第一,价格白菜化。以前让GPT3训练一次的费用是500万美元,但现在仅仅需要一张4090、一张1.3万人民币的卡,我们就可以在它的基础上进行微调。对于小的创业者来讲,一张平时打游戏的游戏卡,现在就可以玩一个大模型。
第二,技术平民化。今年7月,我们实验室一个清华大学计算机系的本科实习生用了3周的时间,做了一个Openchat,在所有的开源模型里面排名第一,和OpenAI的3.5已经无限接近了。以前一想到这么大一个模型,肯定要上百个最顶尖的、年薪几百万的工程师,才能把这件事做起来,但现在它只是一个本科生三周的成果。
第三,场景微型化。以前我们对大模型的想象,是一个浩大无比的工程,上千台、上万台服务器一起跑。但是现在不用了,我们甚至可以把它放到随身携带的手机芯片里。比如说自动驾驶、无人机,它们不再需要通过互联网连到服务器上等待反馈,所有思考、所有计算、所有计划都在它们的本体上完成。
在Language Model as a Service的基础上,还有更重要的东西,也就是第五个层次:Agent as a Service。举一个例子,如果我现在想开一家公司,在没有开始任何的工作前,我至少需要先配备财务人员、法律人员等至少十个人。但现在,我可以在家里登录网站,这个网站早已将各种各样的专业人士封装到每个Agent去。而我需要做的事情,只是在我需要某个职能的人时,雇佣那个相应的Agent,而这个Agent比我花钱所雇佣的95%的人都要厉害很多。
这将导致公司的底层逻辑发生改变,具体体现为公司的轻资产化、团队小型化、以及更多的创业机会。普通人、创业者在构建代理方面可能比开发ChatGPT的公司更有优势,充满活力的微小型公司将层出不穷,迸发出巨大的发展潜力。
下一代AGI会是什么?
首先我们要梳理AGI的演化。第一阶段,ChatGPT,问它问题,它告诉我们答案,然后我们去行动;第二阶段,ChatGPT + Autonomous Agents,我们不仅可以问它问题,还能让它去执行任务;第三阶段,ChatGPT + Generative Agents,我们不再具体告诉它干什么,而是告诉它我们的目标。
我认为一个真正的Agent(代理)是不再具体告诉它要做什么,而是告诉它一个目标。这是下一代的Agent,我称之为“生成式Agent”。
生成式Agent不仅可以自主完成任务,而且是拥有欲望、信念、意图以及采取行动能力的智能实体。前面讲到自主代理不是实体,而是虚拟的、是数字的,现在我们需要把它变成实体。比如大家现在看到的特斯拉的机器人、迪斯尼在公园里溜达的小机器人,还有日本陪伴老人生活的机器人,都是在这个大类里面,但是这些仅仅是一个开始。
作为一个智能体(Generative Agents),它需要具备技能、和现实交互的能力、以及具身智能(Embodiment)。
我们熟悉的AlphaGo,以上三个能力都不具备,它只能下围棋;智能体Voyager可以在一个空间内修房子、做各种各样的事,技能是很强的,但没有身体,也不具备与环境交互的能力;MetaMorph在丘陵里、山野里爬行,随着环境的改变而变化自己的形状,体现了与现实的交互;IsaacSim模拟我们自然环境里面的重力、摩擦力,试图创造出一个跟我们现实生活中一样的虚拟场景,先在里面
把机器人训练好,然后再移到真实环境里。
但是目前来说,它们只是占到这三个轴的两个轴而已,未来真正的智能体应该是这三个轴都非常厉害,我把它称为基座代理(Foundation Agent)。我们下一步需要做的,就是在基座大模型的基础上,把Embodiment这个轴加上。
上面我们提到的只是个体,而在个体产生后,我们需要做的是Agent和Agent之间的交互、Agent和人之间的交互。我们可以构建一个虚拟的场景,在这个虚拟的场景里放入机器人,也可以将真正的人放进去,通过AR、VR技术连接互动,形成一个群体的智能。
这时候会产生一个问题,当群体智能形成的时候,大家有合作、有争吵、也有竞争,这时候就会产生复杂的博弈,在复杂的博弈里就会产生一个非常重要的概念——我。当你一个人的时候,你不需要“我”这个概念,因为我就是一切;但是当你站在一群人里的时候,一定要分清我和其他人是不一样的。
产生“我”这个概念后,就会出现意识。当我们的Foundation agent做到这一步的时候,那我们就进入了一个全新的智能阶段。如果说ChatGPT只是让我们看到了AGI的一丝火花,让我们在黑暗之中看到了黎明的曙光;那么Agent的加持则将AGI从第二阶段的领域模型变成第三阶段的认知模型——它能看、能听、能思考、能规划。这不就是我们,万物之灵吗?此时此刻我们就创造出一个全新的物种,这时候才是一个真正的AGI。
我们可以通过回顾智能的三层次模型来找到发展的方向。第一阶段,任务模型,如果说我们现在还要去做一个垂直的小模型,其实已经没有任何价值了;我们现在真正可以做的是在第二阶段,领域模型,所有与知识相关的领域全部可以重做一遍,而且这种重做并不是简单的设备好,提升效率,而是从底层逻辑的变化;再下一步就是第三阶段,认知模型,我们可以通过Foundation Agent来做这件事情。
SoftBank的投资人孙正义不久前提出,通用人工智能(AGI)将在10年内实现,其智能程度将是人类智力总和的10倍,相当于人类和猴子之间的智力差异。他提到的只是AGI无限算力的一方面,它还拥有无限存储和无尽寿命,它代表的是无限的可能。
在我们都可以见证的未来,AGI会超越人类的智能,而且是永远不回头的超越。当然这也带来一个很大的问题,我们将面临一个新物种的挑战,可能会带来世界的毁灭,我们必须要像对待疾病一样来应对这件事情。
那么对于我们而言,未来该怎么办?有三种可能:第一,Autonomous Agency特别友好,让干什么就干什么,不知疲劳,就像《星球大战》的R2-D2一样,可以做所有我们交给它的任务;第二,人机合一是最好的结局,在座各位都有脆弱的身体,我们可以把思想、记忆、情感上传到数字大脑里面,这样由此获得永生;第三,AI可能会把我们干掉,就像我们把尼安德特人干掉一样。
无论是R2-D2,无论是永生还是人类最终的消亡,这与大家都有密切的关系,值得每个人去思考,不仅仅是商业的机会,还包含人类的未来。我特别喜欢Sam Altman那句话:世界将发生翻天覆地变化。我们正处于巨变的开端,人类有一个难能可贵的机会去打造未来。
了解更多好课程,开展企业培训,欢迎您扫码留资。
混沌企业顾问将尽快与您联系。
微信扫码关注该文公众号作者