在两个学术报告后,高瓴人工智能学院正反双方激情开辩,第一个议题是“智能还是伪装,Sora到底懂不懂物理世界?”,核心观点如下:正方黄文炳:Sora懂物理世界!角度一:Sora生成的视频具有时间连续性、空间不变性,捕捉了光影变化,这些都与物理世界规律相符,因此Sora学到了基本物理规律。角度二:不同于物理学规律,物理规律是指大多数人在现实生活中的直接感受,比如球从高处往低处掉,而非物理学家基于数据推导出的严谨理论。可以看到,Sora生成的绝大部分的视频都是满足日常生活中物理规律的运动。Sora懂不懂物理世界?这里的物理世界,不是指物理学家的世界,而是大多数人懂得且能感受到的一般物理世界。角度三:以图灵测试为例,如果无法区分被测试者是AI还是人,就代表这个AI系统具备了智能。那么只要Sora生成的东西,大家通过常理判断出来是真的、没办法区分出是人还是AI的,我们认为它就是“懂”的。反方孙浩:正方辩友被Sora的表象欺骗了,对物理规律的理解存在偏差。首先纠正下对物理世界的基本定义:物理世界是指自然规律和物理定律支配的空间,如守恒、对称等,包括能观察到的物质及基本运动现象,是客观存在的,如果Sora懂物理世界,那么它生成的视频必然能够准确模拟和刻画相关的规律,但目前Sora并不能做到。其次,Sora的基本运行机制是基于扩散Transformer对视频、语言数据进行压缩,学习期分布。但基于视频和语言有限维数据生成的视频,停留在视频的表象,只能达到“逼真”的效果,离“真实”相差甚远。传统动画渲染也可以达到类似的效果,这并不能代表Sora具有模拟和理解现实世界的能力。但我们也没法否定Sora在创作设计、视觉效果等领域的巨大潜力。正方魏哲巍:物理学家费曼说过:“What I cannot create, I cannot understand. ”提出生成即理解的观点。从数学角度来看,这句话的逆否命题就是:我能够理解的,我就能生成。反过来看,是不是生成的就能理解呢?我认为是。人类对物理世界的理解并不完全依赖于物理公式。比如水浪表象背后有一系列波动方程,大多数人都理解水的物理形态、波动过程,但不会懂动力学方程,也不会通过动力学方程去理解。牛顿抽象出重力学方程的过程,是不是真的有个苹果砸到脑袋后就突然蹦出一个方程?其实不是的,他从很早之前的各种公式、论文中推导出来,绝对不是仅仅有视频就能把方程推导出来。但从人理解物理世界的角度来说,我们跟Sora一样,所以我们认为Sora既然生成了,那么它就是理解了。反方徐君:Sora不能理解物理世界的一个重要原因是,它企图从大量非实验数据中发现物理规律,也就是说不做实验,而是被动地观察世界。基于统计因果中的结论“非干预,不因果”,如果不能施加干预,算法就不能发现统计因果规律;如果连统计的因果规律都发现不了,就更不要说表述物理现象因果关系的物理规律了。所以无论是Sora还是ChatGPT,如果只是被动收集数据来训练大模型,它会被欺骗,只能学习到相关关系,而非因果关系,很难学到真正的物理规律。人类发现物理规律的过程中,反直觉的思考和假设很重要。比如在现实生活中,按照直觉,亚里士多德的直觉观念“物体在不受力的情况下会保持静止”没什么错,但伽利略、牛顿发现了反直觉规律——物体在不受力的情况下会保持匀速直线运动。因此,以直觉为主导的推理方法是靠不住的,基于直接观察的直觉结论并不总是可靠。Sora如果仅仅依托直觉去拟合非实验的观测数据,不引入反直觉思考,不干预世界,则发现不了真正的物理规律。正方宋睿华:我方认为这种观点太“以人为中心”,完全错误地阐释了什么叫物理世界。物理世界不应仅限于人类能理解的范畴,无论有没有人,这个世界都是物理世界。机器学习模型通过数据学习的过程与物理学家建立和优化模型的过程相似。机器学习有了一些模型和未知的参数,同时在现实数据上定义一个损失或者人类反馈,再进行优化;物理学家也采用类似的方式,先反直觉地发明一些公式,加入一些参数,在理想化假设条件下做一些实验数据,再公式有多大的计算损失,接着进行充分思考,从而优化模型。今天的神经网络的拟合能力可以逼近任何函数,可以表示更为复杂的函数,比之前那些聪明的物理学家所知道的公式范围还要大。如果神经网络这样的学习过程都不能被称为智能,难道人就是吗?为什么非要是人提出的公式、做的实验才叫智能呢?对方辩友认为做了一些理想的假设、实验后,发现了一些所谓的放之四海而皆准、其实也并非的规律,难道不是传统机器学习的一种特征工程吗?你只是发现了其中一条比较管用的特征,然后再做了一些实验来验证它是99%或者更高的适用性,这是更为狭隘的对物理世界的刻画。目前Sora确实还有些反物理世界的现象存在,但“懂物理世界”不等于“精确地懂物理世界”。让一个人闭眼脑补两个海盗船在咖啡杯里航行的画面,人就能精确地模拟出来画面吗?反方许洪腾:首先,能生成逼真视频与懂物理世界没有必然联系。比如画家可以画出逼真的画作,不代表他们真的理解物理世界。原始时期人们都还不存在懂不懂物理世界这回事,就能用石头搭房子、画壁画,创造相应的艺术作品或相应的客观实体。其次,人类对物理世界的理解和掌握有一套严格的方法论,会去做假设、观测、通过实验实现对物理现象的反演。这是Sora所不具备的,Sora的学习范式是数据驱动,这些数据还不是在一个严格的实验环境下得到的,如果它能理解物理世界,也一定是用一种超出我们认知范围内的方式在去理解。现阶段,我们还没有看到任何AI能够真正在通用性或者对世界的理解上能达到人的水平。Sora之所以这么强大,也许正是因为它不懂物理世界。Sora基于它的学习范式,能够掌握统计规律,把有关联性的事物融合起来,比如生成龟壳像水晶球一样的乌龟,这是超现实的,跟物理世界没有必然联系。再比如更早期的,以Stable Diffusion为代表的图像生成模型,能生成太空上骑马、火星上骑马等违反物理世界规律的画面。正是因为不理解物理世界,Sora才能基于统计相关性构筑自己的世界。正方魏哲巍:有种说法是ChatGPT不懂文字或语言,但OpenAI首席科学家llya依然认为能预测下一个词就是理解了语言。llya举过一个例子,喂给大模型一篇悬疑小说,如果它能准确预测出凶手是谁,那它到底是不是懂这篇小说?从这个例子来看,大模型其实是懂文字的。反方徐君:图灵测试是工程的测试,没通过说明没有这个能力,但通过了也不代表就具有这个能力。好比考试,没通过说明没学懂,但通过了有可能是死记硬背,不代表真的懂了。所以图灵测试不具有很强的说服力。正方宋睿华:我恰恰觉得Sora是通过了图灵测试的。图灵测试一是要跟人比,二是要用问答。ChatGPT还是问答形式,但Sora已经不是了,它做的是一种电影测试,通过视觉的方式让人去判断是否具有智能。反方许洪腾:物理世界必须跟真实世界是一致的。Sora掌握的是统计规律,并不是物理规律。部分AI可能懂悬疑小说,但不懂物理世界。如果Sora所有数据都来自哈利·波特魔法世界,一样能预测下一帧,它懂得不是物理,是魔法。反方毛佳昕:我方坚持认为懂物理世界达到常人的理解即可,不需要懂物理公式。比如在生活中路上来了一辆车,你会用牛二定律算它有多长时间能到面前吗?并不用!自己脑补一下,预测车可能撞过来,躲开就OK了。这种理解有误差、有偏差,没有关系。正方李崇轩:人类对物理的理解也是片面的、逐渐进步的。不能现在穿越回去对亚里士德说你根本就不懂物理,我比你懂物理懂得多,也不能说我们现在对物理的理解就是对的。很多时候物理学家理解世界第一步也是寻找统计规律,在有限观察下去验证,再基于现有理解形成物理定律。随着时间的演化,人类对物理世界的理解也在加深,一些物理定律随着观察的增多而失效,不能要求Sora一出来就懂物理学公式。 03.议题二:纯数据驱动路线能不能实现通用人工智能?
经两轮投票表决,两场辩论的结果均为正方获胜。最后学生们还补充了两个问题:问题1:如今大模型使用起来这么方便,是否还有必要花大量时间在学习数学和编程上?因为大模型可以帮助我们很多。魏哲巍老师回答说:学习数学和编程这些知识的目的并不是解决那么一两道题,而是要提升自己的“泛化能力”,能够解决其他的问题。目前大模型还没达到那么智能,因此为了自身更好地发展,有必要重视学习这些知识。问题2:如何看待大模型的幻觉现象?文继荣院长回答道:幻觉有好处也有坏处,有时候大模型会“一本正经地胡说八道”,用户就会认为这是错误的,是有缺陷的。但也正是有这种天马行空的想法,才能生成比如“在太空中骑马”这种反直觉的图片。因此要辩证看待幻觉现象。文继荣院长对这场思辨讲座作了总结发言,他认为关于ChatGPT和Sora等生成式的大模型的思辨,实则为信仰和技术路径之辨。人大最早于2020年着手文澜大模型研究,当时曾被质疑是否可行,而OpenAI也曾被质疑如此巨额花费与科研理念能坚持多久,但两者最终都做出了令人惊喜的产品。大力出奇迹的大模型还没有出现边界,依然存在很多机遇。去年受到ChatGPT冲击,学院的口号是“全院all in 大模型”。今年Sora来袭,学院的目标更加远大,希望能够把AI应用于人大的每一个学科中,创造智能而有温度的未来。本文福利:随着AIGC技术的持续迭代,未来将会有更多AI爆款产品的出现。推荐精品报告《Sora、Kimi等模型产品力快速跃升,AI大应用时代已来》,可在公众号聊天栏回复关键词【智东西414】获取。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)