港大马毅:现在大模型的「知识」,不等同于「智能」
撰文丨马蕊蕾
当众人纷纷投身于 Scaling Law(规模定律)的信仰之时,马毅却选择了一条少有人相信的路。
「模型无所谓大小,我们说正确的模型,重要看机制是否正确,这才是智能的本质。」
在他看来,真正的智能不仅仅是数据和算力的堆砌,而是更深层次的理解和洞察——是对数据压缩、模式识别和自主学习的深刻把握。
作为计算机视觉领域的知名学者,马毅目前担任香港大学计算机系主任和数据科学研究院院长。加入香港大学之前,他还是加州大学伯克利分校电子工程与计算机系教授。
2023 年 6 月,马毅教授带领的团队开创性地提出了一种「白盒」Transformer 构架——CRATE,能在保持模型良好性能的同时,大大增强模型的可解释性,试图解决现有深度学习模型普遍难以解释的「黑盒」问题。
同年 9 月,马毅创立「忆生科技」。马毅认为人的记忆就是对世界的建模,「忆生」就是「记忆生成」的缩写 。「虽然记忆本身是死的,但生成可以是活的。」
在谈及 AGI 时,他抛出一个问题:GPT-4 和刚出生的婴儿,谁更有知识?谁更有智能?
在他看来,知识和智能的概念被混淆了。「智能是获取新知识、改进旧知识的能力,知识只是智能系统活动的结果积累。」
他认为,GPT-4就像一座图书馆,它更有知识但没有智能;而刚出生的婴儿虽然知识少、但更有智能,因为他们可以把现有知识中不足的地方加以自主学习。DNA 是基础,后天的适应才是真正智能最高形式的体现。
没有人能说出真理是什么,但每个人都能说出自己认为的真理。在这场汹涌的浪潮中,马毅认为我们对于智能的理解其实才刚刚开始,还有很长的路要走。
以下是AI科技评论在西雅图采访马毅教授的访谈实录,作者进行了不改原意的编辑整理:
AI 科技评论:当前大模型的研究路径以黑盒模型为主,通过堆积参数来实现模型的智能水平。您怎么看待这条技术路线?
马毅:虽然大家还在相信 Scaling Law,但至少在视觉和自然语言的结合方面,Scaling Law 技术路线已经遇到了瓶颈。
比如我们与谢赛宁、Yann LeCun 等人合作的、在今年 CVPR 上也会重点做 oral 报告的工作(如下),我们就发现,基于 Transformer 开发的黑盒视觉语言大模型如 GPT-4V 在九个基础视觉任务上存在系统性缺陷。多模态又是 AI 的未来发展方向。
目前很多技术模型,实际上非常粗暴,甚至是一种相对原始的方法。扩展可以越多越好,但(我们)需要思考扩展的必要性以及能否找到正确的系统来扩展,这才是正确的理解 Scaling Law,而不是不计成本和效率地去扩展。
为什么我们要扩展正确的模型?因为 Transformer 的「黑盒」是经验设计的方式,我们很难了解它的利用率,所以我们要通过训练一系列的深度网络来搞清楚Transformer 这样的黑盒模型工作的原理。
但我们其实可以采用一种更为合理的方式去优化。有一个词叫「Minimonistic Approach」(最小化方法),即用最简约的方法来设计模型,最后训练得到的模型,其可解释性和可控性也能得到提升。
AI 科技评论:在这一波浪潮里,您以前任职的伯克利大学(UC Berkeley)在大模型方面产出了很多杰出成果。
马毅:顶尖院校一般都会在现有的技术上做一些领先的工作,比如 Sora 的团队研发负责人也是伯克利人工智能专业的毕业生。
在工业界,你要把事情做得越来越「好」,而在学术界你要把事情做得越来越「对」。两者的分工是有区分的。
目前许多高校的老师很迷茫,认为学校没有资源、没有数据、没有算力甚至没有人才,好像就无法参与 AGI 或大模型的研究。但说实话,我们对于智能的理解其实才刚刚开始,还有很长的路要走。
AI 科技评论:我听说了一个有趣的数据,过去几年伯克利毕业的30多位博士生,大多数都去了 OpenAI。好像现在 AI 人才都往工业界发展了。
马毅:在过去,AI 毕业生去工业界的薪资可能只是学术界的 2-3 倍,但现在基本要接近 10 倍,这对年轻人是很大的诱惑。现在去学术界需要一点情怀。
但院校也是一个能验证 AI 想法的好地方,比如近几年视觉领域两个奠基性的工作——NeRF 与 Diffusion Model,就是在伯克利诞生的 。
如果想产生好的效果,工业界是一个好去处。
像神经网络,一开始训练一个模型需要好几天,初期也只有学术价值,但英伟达这些公司用大量的卡堆,很快就将过去十年同等规模的模型训练时间缩短到几分钟甚至几秒钟。扩散模型也是,前期好几拨人都没做起来,最后 Stability AI砸重金做出 Midjourney,就把它的潜质放大出来,让大家看到了效果。
这也是我选择创业的原因之一。
AI 科技评论:您的白盒理论有「4C」,Consistent(一致性)、Controllable(可控性)、Correct(正确性),还有一个 C 是什么?
马毅:还有一个「Complete」(完备性)。
Consistent 是说人对世界的理解要与物理世界保持一致,AI 模型也同样如此。比如,我们对特定场景的理解,看完场景后、闭上眼睛想一遍,再画出来的场景和现有场景一定是一致的。就像我眼前有两个背包,你看到的和与闭眼画出来的一定是「两个」背包。如果不一致,我们就会做纠错。
「画」就是生成。2022 年以来文生图、文生视频很火,但生成具体的细节是很难的。想要生出更细节、更可控的内容,就是 Controllable。
接下来是 Correct,人对系统的理解要正确。如果我们要扩展一个系统,就要扩展一个正确的系统,这个系统不能是黑盒子,Correct 是要实现的网络结构。
Complete是在 Correct 的基础上更上一个层次,实现有关现有系统的完整性。虽然我们的记忆是一个完整的系统,既能识别,也能预测,但现在黑盒模型的实验系统只是我们记忆系统的一部分,并不完整。怎么实现一个完整的系统呢?这是一个问题,需要我们共同探究,但至少现有的系统还没有达到 Complete 的层面。
AI 科技评论:您是哪一年提出白盒理论的?
马毅:我们关于白盒理论的首个工作 ReduNet在 2021 年就发表在 NeurIPS 上,当时探讨了有关编码率减少度量信息增益的内容问题。
论文地址:https://arxiv.org/pdf/2105.10446
学习实际上是增大我们对世界的信息理解和获取能力,学术里把它叫做「信息增益」( Information Gain)。这是一个非常客观的量,体现你获取的外部知识在内在大脑的表达中信息的增益性有多大。如果你去优化这个问题,神经网络就在优化这个量,你可以用目标函数从这个优化算法里推导出来。这样你就可以实现必要的知识,把冗余的东西全都去除。
我们主要是从概念和理论的基本算法上理解,现在也看到了白盒理论和扩散模型、Transformer 的联系。目前我们的理论框架的高效性和有效性都得到了验证,但一直讲理论其实很难说服别人,很多人不太熟悉数学的概念,只有把它实现到一定规模、得到验证,才能让大家信服。
所以,目前在智能领域,虽然规模是有效的,但是去扩展正确的系统,才是我们真正应该做的。
你要真的了解系统,知道哪个系统比较正确、或更具性价比,才去进行扩展。我个人认为,我们需要先看到一些更加可控的、可解释的甚至更完整的系统,再去研究它的下一步,看是否能把该系统工程化的实现,做出完整的自主型系统。
AI 科技评论:您的团队在白盒理论研究中的代表作是 CRATE 吗?目前它在实际应用中有什么优势和挑战?
马毅:目前 CRATE 是让公众看到这套框架从算法层面推导的过程、去噪扩散模型、与神经网络架构之间的联系。目前我们可以对现有的很多监督和非监督学习的框架做得更加高效,一旦了解这个原理可以解释现有的方法都在做什么,那我们就可以去设计更高效的系统。
现在 CRATE 面临的只是时间和资源的问题。在 Transformer 已经实现的场景下,我们能做的基本上都测试了,比如Bert、 MAE、GPT 等。所有的 Transformer 用到的场景,我们都能跟它接近,甚至是超过他们。在初期,确实只能先从这些有限的场景来验证我们的方法是正确的、并且模型是高效的。
AI 科技评论:业内也有关于取代 Transformer 的讨论,一些团队提出了跟 Transformer 不同的架构。您怎么看这些架构?
马毅: 目前很多是在某一些任务上相对有效果,但并没有证明这个架构很通用。即使你觉得它的效率更高,你也不知道原因。也就是说,这些架构都没有脱离黑盒模型的范式。
深度网络本身不是目的, 只是我们实现智能目标的手段而已,为了我们增加获取外部世界的信息。
最近我们有个工作还没完全公开,是有关根据白盒框架可以推导出注意力机制(Attention)的。Transformer 层面比较贵,如果你的长度是 n 个 token,它的复杂度就是 n 的平方,或者你的特征尺寸是 d,它就是 d 的平方。所以模型复杂度比较高的同时、也会影响它的规模,这就是为什么现在大模型需要很多卡的原因(更多信息可以阅读 AI 科技评论以往报道:《谁将替代 Transformer?》)。
实际上这件事情(投入大量卡)又不是必要的。我们现在的白盒工作在计算上完全可以实现线性复杂,跟 Mamba 等架构有同样的选择。但是跟它们不一样的是,我们推导出了模型的背后工作原理,并且知道一个模型的组成部分是完全可以完成它所设计的目标。
AI 科技评论:您目前对于白盒理论从理论到落地的规划是什么?
马毅:过去几年,我们的(白盒)理论框架开发了一些算法,虽然比较基础,但在这个理论框架的指导下,我们已经能很好地提高模型训练的效率,甚至找到更完整系统的方法。我个人认为,至少在概念和验证的层面,我们能从学术上做的事情基本上都做到了,包括理论保障和算法设计,分析的也非常完整。
那么下一部分,可能就需要比较规范的工程化和规模化的验证了。在一些真实的应用层面上,把这些新方法的价值展现出来,因为这些价值只能通过更大的规模去验证,才能让公众更好的看到它们的价值潜力。
在更大规模的视觉理解层面上,它的潜力至少是大脑的记忆模型,包括记忆如何生存、改进以及提高,从而把它做成一个完整的生成记忆的系统。
AI 科技评论:您认可 AGI 这个词吗?
马毅:一个系统「有知识」和「有智能」,是两个概念。
智能是获取新知识,改进旧知识的能力,知识只是智能系统这个活动的结果积累,就像人类的知识是我们这么多人大脑的积累。智能的本质是生存记忆,找到这个世界可控和可预测的规律,不断进行改进和增加新的知识进来。知识是积分,智能是微分,知识是可以大家一起来积累的。
我经常举例子,GPT-4和一个出生的婴儿,谁更有知识?谁更有智能?GPT-4就像一座图书馆,它更有知识但没有智能,但刚出生的婴儿却有可能是下一个爱因斯坦,因为他们可以把现有知识中不足的地方加以自主学习,这才是智能的本质。
再看一个简单的现象,我们认为智能越高级的动物越不依赖于我们 DNA 传承的东西。如果你认为“智力”越多,越依赖于靠记忆和纯粹的死记硬背,这是“智能”的话,那么人的“智能”是非常少的。你会发现越高级的智能,它学习时长也就越长,从而获取知识的能力就越强。DNA 是一个基础,但它后天的适应才是真正智能最高形式的体现。
AI 科技评论:现在国内面壁智能、国外 Mistral 等团队从 Scaling Law 入手,也能将曲线不断往回移,提高模型的计算效率,您怎么看?
马毅: 目前大家普遍用经验在做尝试,没有比较完善和清晰的理论来做指导,试错时间会比较长。像现在流行的 MoE(Mixture of Experts)技术,它的框架用白盒理论能推导出来,其实就是残差神经网络(ResNet)在优化信息增益的过程中自然会推导出来的结构,每一层都会有多个途径。
我们的 CRATE 也是同样类似的结构,大家尝试出来和推导出来的都是一样的,试出来有它的道理,但是如果有原理,你就可以了解出现的原因。大家目前还是在遵循 Transformer 的思路,所以在寻找新架构的时候没有理论的指引,就会缺乏自信。
从 19 世纪 40 年代以来80多年的人工智能历史,其实有很多人是不太了解的。正是因为目前我们对这些历史概念梳理的缺失,才导致很多概念虽然被重塑了,但还是缺少了系统性和连贯性。不是提出一个概念,这个技术就是我发明的,因为到目前为止这个世界还没有发现这种新鲜事。
过去十年,大家虽然看到技术蓬勃发展,但实际上没有什么新概念,甚至很多概念都混淆了。我们做学问的人要把历史概念梳理清楚,让大家知道事物发展的过程和传承,这样历史上得到的很多深入的教训和知识,才能更好地实现。这是现在我们还没做到的,我们必须得承认。
AI 科技评论:目前除了算法层,底层计算层也出现了许多围绕英伟达 GPU 生态改善的创业公司,比如 Groq、 OpenAI 投的芯片公司 Cerebras System 等。如果大模型的耗能问题解决,那么白盒理论的研究价值是否会受到挑战?
马毅:完全不会。芯片领域的这一进展恰恰是我们所希望看到的。
大家往往认为智能在做一件很了不起或者很复杂的事情,但其实不是,智能应该是以最小的代价把最容易的事情先做好。最早图灵时代,试图设计一个通用机器去计算世界上所有可算的东西,实际上我们生存所用的功能是很有限的。后来发现它们无法被高效地计算,所以才有 P 问题(Polynomial Problem)和 NP 问题(Non-deterministic Polynomial Problem)的区别。
现在我们的生物是要从海量高维数据当中去提炼它可预期的规律,像二阶复杂度、三阶复杂度和高阶复杂度,虽然都是多项式,但都是用不了的。这样高维的数据、图像和声音,必须要非常可扩展的算法。自然界的优化一定不是用全面优化的方法,而是用非常局部的增量优化的方法。
所以,真正的智能所需要的计算实际上是非常高效和简洁的,我们的白盒理论就是要告诉大家什么样的计算是智能真正需要的,把黑盒理论当中不必要的冗余全部舍去。
我不做芯片,但我相信现在通用机器的 GPU 有点大材小用,完全不是智能本身所需要的东西。所以现在我们这套白盒理论就是告诉大家,哪些是最本质需要的,只需要实现智能系统真正所需要的计算进行优化就好了。智能就是先把最容易、最好解的、对生存最有利的东西,用最小的代价先把它最大规模的实现了,然后再逐步的往上近一步的去解决其他的问题。
AI 科技评论:您在做一件蛮大胆的事情,赔率很高,如果一旦成功就会直接推翻现有的所有工作。
马毅:我觉得应该要做这件事情。第一,正确理解模型的理论,理解模型 work 的原因、还能有哪些创新等等。第二,把理论简化或者统一,把现有的不高效的点做成一个经验方法的归纳。
现在通过大量经验找到的方法也有它的道理,但你需要把它本质的道理和原因搞明白才能看见未来。所以理论本身并不是目的,也不一定要去颠覆,而是为了简化,去帮助大家通过演绎的方法来预测未来怎么改进。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者