一年一度的AI春晚完美落幕,今年智源大会依旧是大佬云集,依旧干货满满。从大模型价格战到开闭源之争再到 Scaling Law的边界问题,都让我们不得不去重新思考AGI之路过去、现在以及远未来。接下来我们将从Sora生成式模型发展回顾之路开始,给大家奉上智源大会最全要点整理:Scaling Law会持续演进,只是方式会发生变化
大模型AI领域的一次巨大革命,其中一个特别重要的因素就是扩展法则(scaling law),也在今日贯穿整个大会,月之暗面、百川智能、智谱AI、面壁智能四家大模型独角兽以及零一万物的CEO李开复与清华大学智能产业研究院的院长张亚勤分别提出了各自的观点。杨植麟认为scaling law没有本质问题。未来3到4个数量级的提升是非常确定的,关键是如何高效地扩大规模,以及应该扩展什么。如果只是继续使用当前的方法和数据,可能无法解决推理能力等问题。所以我们需要重新定义scaling law。只要有更多的算力和数据,模型参数变大,智能会持续增加,但这不一定局限于当前的方法。比如,模型可以有不同的模态、数据和loss function。所以他认为scaling law会持续演进,只是扩展的方法会发生变化。王小川认为scaling law目前没有看到边界,它会持续发挥作用。比如,Elon Musk计划购买30万片B200芯片,这表明美国在这方面的投入和认真程度远高于中国。因此,我们在scaling law之外还需要寻找新的范式转化,不仅是简单的预测token和压缩模式。只有走出这样的体系,才能有机会走向AGI,并与最前沿的技术较量。张鹏认为目前为止,人类认识的所有规律都有可能被推翻。只是看它的有效期有多长。到目前为止,我们还没有看到scaling law失效的预兆,所以在未来相当一段时间内,它仍然会有效。同时他也认为所谓的有效性也是一个动态的概念,它所涵盖的内容会不断演进。早期我们关注的仅仅是模型的参数规模,现在大家逐渐意识到,参数量、数据量、数据质量、计算量这些都很重要。所以它的内涵其实也在不断变化。随着我们对规律的认知越来越深入,这些规律的本质也越来越清晰。基于当前我们对这些本质的认识,张鹏认为它仍然是未来我们主要推动的方向。同时他也提到,包括传闻中的所谓4.5版本以及5版本何时发布。传了几次却没有发布,他认为其中因素非常多。以智谱AI自身为例,在开发悟道模型之初,就曾面临一个选择:是构建一个稠密的单体模型,还是采用MOE技术构建稀疏的多体模型。这实际上是在满足或追寻Scaling Law的不同策略。发展到今天,你会发现维度已经非常多了。你可以在很多方面进行尝试,但难度和复杂度也增加了。实现GPT-5或下一代模型的技术可能性,需要探索的领域非常多。李大海也总结了扩展法则(Scaling Law)非常重要。扩展法则是一种经验公式,是行业对大模型这个复杂系统的观察和总结。随着实验的增多,我们对模型训练过程的认知越来越清晰,细节也会越来越多。训练方法本身对扩展法则的影响也很显著。一旦我们固定了参数规模,数据质量和训练方法的重要性就会显现出来。人工智能发展至今最成功的技术方向之一,大模型到底做对了什么使其如此成功?还有哪些欠缺的地方需要后续发展?李开复认为大模型肯定是AI领域的一次巨大革命。其中一个特别重要的因素就是扩展法则(scaling law),也就是说我们能够用更多的计算和数据,不断增强其智能。这一点已经被验证,并且还没有达到顶峰,仍在推进中,这让我们非常振奋。第二点是大模型的智慧源自于近乎无损的压缩,这一点非常重要。许多人工智能研究者以前没有想到会将压缩与智能联系起来。在扩展法则的过程中,不能盲目地投入更多的GPU资源,所以需要有一种方法来评估是否在不断改进。零一万物内部有一个严谨的数学方法论,用压缩的理念来评估,这让实验变得有科学和数学的依据。大模型面临的挑战之一是仅依靠增加算力来推动。如果这种方式持续下去,可能只有拥有大量GPU资源的公司或国家才能胜出。然而,零一万物也验证了国内的许多大模型已经接近,甚至在某些情况下超过了美国的大模型。同样重要的是工程问题,如何通过工程手段在不盲目增加算力的情况下取得更高的成果。当然,大模型在推出初期和任何新技术一样,面临一些问题,比如记忆问题、窗口长度问题以及幻觉问题等。但当全球如此多聪明的人才投入这个领域时,这些问题大部分都得到了很好的解决。所以李开复我对大模型未来非常乐观。张亚勤教授首先提到了三个大模型做对的地方和三个需要改进的地方。第一是规模效应,这利用了大量数字化数据和算力的提高,再加上现在的架构如Diffusion和Transformer,很好地利用了算力和数据。我认为这种规模效应在未来五年内仍将是产业发展的主要方向。第二是统一的表述,Token-based是大模型中的核心元素。无论是文本、语音、图像、视频,甚至自动驾驶中的激光雷达信号,都可以抽象成一个Token。这与大脑的神经元类似,是大模型的重要基础。第三是通用性。Token不仅可以应用于文本,还可以用于多模态和生成,例如蛋白质、物理世界和生物智能。这些都是大模型做对的地方。但是,大模型目前仍然效率低下。与人类大脑相比,现有大模型的效率低很多。未来需要大幅度提高效率,才能建立真正的商业模式。目前,主流大模型仍处于购买英伟达芯片的阶段,效率需要大幅度提高。其次,大模型还没有真正理解物理世界的能力,推理能力较差,透明性和幻觉问题仍需解决。大模型在生成式和真实世界表述之间存在矛盾,需要结合生成式大模型和现有的第一性原理或真实模型,目前这方面还没有根本性突破。最后一个问题是边界效应。大模型目前还无法清楚地知道自己不知道什么,这是需要解决的一个大问题。开源不会削弱我们的竞争力,大公司垄断优势是暂时的
关于开源社区,斯坦福的三位学生抄袭面壁智能MiniCPM大模型的事件闹的沸沸扬扬,李大海作出公开回应道,是海外个别学生组成的小团队的个人行为,不代表斯坦福这样的学校。事件发生后,斯坦福的系主任和同行也表达了正面的观点。我们更加坚定了对开源力量的信心。“事件的发现是靠热心的开源参与者,而不是我们自己。”具体经过是面壁智能5月20日开源模型,29日几个本科生做了一些简单的工作,在面壁智能的模型上叠加高斯噪声,宣称是自己的模型。这个模型宣称的多模态能力与GPT-4V和JMI Pro对标,但只需要500美元训练是不真实的。事件发生后,开源社区的热心参与者迅速发现并曝光了这个事实,让面壁智能能够及时纠正。这件事让面壁智能更加坚定了开源的力量。开源力量很强大,不光有做原创工作的人,还有很参与者贡献需求、贡献反馈,这也是开源生态重要组成部分。王小川也提到了百川智能当时开源的动机当时开源的需求是市场需求。在去年9月开源第二版,6月开源第一版。中国当时对大模型的热情很高,快速入场。在美国既有大公司生态,也有开源生态。中国需要快速入场,开源对市场产生了良好影响,得到很多认可,也给公司带来正面的声誉。“我们认为模型会快速进步,所以开源不会降低我们的竞争力。模型生态中,今天最好的模型明天可能就不够好。因此,我们决定开源,既有贡献又不降低竞争力,符合市场预期,带来了声誉和正面影响。越来越多公司在开源,使中国在追赶美国的过程中,大家共同做出贡献。”价格战对中国大模型发展非常有利
最后一个话题是近期的价格战,这是一个非常关键的问题。月之暗面、百川智能、智谱AI、面壁智能四位CEO对价格战都持积极态度,但观点各有侧重。零一万物CEO李开复与清华大学智能产业研究院院长张亚勤教授的对谈中也探讨了大模型的商业化问题。杨植麟提出了三个判断:第一,算力投入,推理算力在某个时间点会超过训练算力,标志着价值的释放。训练成本能被覆盖。第二,从C端来看,推理成本可能低于获客成本,商业模式可能不会与以往相同。第三,AI在工作流程中占比很低,可能只有1%。人类工作远多于AI。AI的价值在某个时间点可能超过人类,带来新的商业模式,普惠AI和价值分层,改变商业模式和ROI问题。王小川认为价格战对中国大模型发展非常有利。价格战是市场行为,带来两个好处。第一,更多公司和个人能用上大模型,推广普及,很多企业可以免费或低价尝试POC,迅速普及大模型。第二,其实之前有很多浪费。因为在初期,大家对大模型了解不多。王小川发现很多企业,只要有点技术能力,都声称自己有大模型能力,甚至自己购置硬件,跑去找我们合作训练。但实际上他们应是大模型的用户和消费者,而不是供给方,很多企业想转型成大模型的供给方,结果导致人才、资金和社会资源的浪费。有了价格战后,很多企业开始清醒,意识到不必做大模型,回归自身优势,成为大模型的用户。这减少了很多浪费,也减少了社会资源的消耗。更多企业能明确自身定位,不需要成千上万的大模型。价格战带来市场的分层,每家公司都能受益,增强竞争力。张鹏首先澄清了智谱AI并非价格战的发起方。智谱AI一直秉持的理念是给用户带来最大的价值,用技术和创新降低使用成本,普及技术,让更多人享受收益。智谱AI的价格一直很低,因为技术能做到,释放成本空间,为用户带来收益,确保ROI大于1。从宏观角度看,这对中国的大模型产业有利,让更多人使用,把大模型变成基础设施,就像水电一样便宜随时可用。这为企业提供了更好的发展空间。智谱AI最近推出的新模型,把成本压到极低。以前大家报价都是一千多克,现在是几分钱,甚至几厘,难以计算。所以调整为每100万Token几分钱。这对整体产业是有好处的。但需要注意不要过多宣扬,商业上牺牲企业短期成本不是正常逻辑,必须回归用户价值和生产力价值。面壁智能选择端侧,因为看到落地更早的可能性。李大海表示,最近有机构调研,全国10亿用户手机的端侧算力相当于100万片H100。如果这些算力被充分利用,很多应用可以落地。端侧模型和云侧模型需协同,端侧隐私性好、更可靠,云侧模型能力更强。李大海也认为,当前价格战有一定营销成分,但未来一定会更便宜,并且大家都有利润,这才是健康的方式,让千行百业的应用落地。大模型产业化的最大应用场景在哪里?是To B还是To C?哪条赛道更有机会?李开复认为在中国,To C短期内更有机会,而在国外两者都有机会。对于To C,大模型就像是移动互联网或PC时代的新技术和新平台,带来了新的应用,这是巨大的机会。这些应用会按部就班地到来。从PC到移动互联网时代,AI时代也是一样。第一个阶段是生产力工具,第二个阶段可能是娱乐、音乐、游戏,第三个阶段可能是搜索,再接下来可能是电商、社交、短视频和O2O。这些都是不变的定律。最初,应用需要能够赚钱并解决问题。工具越往后,难度越高,所需用户量越大。而商业模式通常是先积累用户,然后再找盈利模式。所以成本一定要压低,试错难度高,需要的投资更多。因此,按照这个顺序来是自然的。还有一些细节,比如用户不多怎么做社交等。所以我认为这个定律不会改变,我们会坚决从工具走向短视频。普及大模型的视频研究或产品也需要按部就班地推进。当然,这里面有一个挑战,就是应用大模型的推理成本太高。最近零一万物推出了一个新的想法,叫做TC-PMF。即在考虑产品市场契合度(PMF)时,还要考虑技术需求、难度和成本。做应用时,一定要考虑到技术是否足够好,成本是否足够低。这些都需要综合考虑。因此,To C应用的难度很高,需要基础设施、推理引擎和大模型AI专家一起打磨。但回报也高,机会更大。最后一点,李开复认为技术带来的领先是短暂的。因为一旦有巨头看到你的PMF验证,他们会有更多的方法超越你。所以一旦验证出TC-PMF,就要抓住时间窗口,把品牌打出来。最终胜出的To C应用,不仅技术要好,还需要抓住时间窗口,打造可持续的优势,比如品牌优势、社交链或用户数据,使用户无法离开平台。比如,抖音在微信时代的成功就是抓住了这个窗口。关于To B的应用,李开复认为大模型在To B领域带来的价值更大,应该更快实现。但To B面临几个巨大挑战。首先,大公司对看不懂的新技术持谨慎态度,不愿意采纳颠覆性的东西。大公司习惯于逐年增加预算,继续做去年做的事情。其次,To B领域的最大价值是降本,而不是创造价值。降本意味着取代人类工作,这会遇到很多阻力。很多高管不愿意推动这项工作,因为可能会削减团队,影响自身的政治资本和权力。第三个问题在中国尤为严重。很多大公司不愿意为软件付费,导致大模型公司竞相压低价格,结果是做一单赔一单,无法盈利。在AI 1.0时代已经出现了这种现象,现在AI 2.0时代又重现了。所以在零一万物,我们坚决要做To C,并且不做赔钱的To B项目。我们会精挑细选,找那些真正公司上下都认可的项目。无论是做To C还是To B,API都很重要。李开复提到零一万物推出了接近GPT-4能力的API,价格是GPT-4的四分之一,希望能帮助更多公司和创业者达到TC-PMF。张亚勤也认为To B和To C各有其优势和挑战。To C短期内在中国更有机会,尤其是在生产力工具、娱乐、音乐、游戏等领域。然而,To B在大模型领域带来的价值更大,特别是在降本增效方面。但To B也面临着大公司对新技术的接受度不高、组织内部阻力大以及软件付费意愿低等挑战。因此,选择合适的To B项目尤为重要。总之,大模型产业的应用场景广泛,无论是To B还是To C,都有巨大的潜力。关键在于如何抓住时机,合理配置资源,实现技术和商业的双赢。在应用和服务层面,开复讲到的先To C后To B是对的,To C马上就有应用和产品,这与PC互联网和移动互联网的趋势基本一致。但若细分层面,目前真正赚钱的是To B领域的基础设施,如硬件、芯片等。目前最赚钱的公司是像英伟达、AMD这些做芯片的,还有做服务器、HBM存储和InfiniBand、NVLink这些基础设施的公司,这些都已经在发生了。但从应用角度看,确实是先To C再To B。另外,张亚勤一直将AI分为三个阶段:信息智能、物理智能和生物智能。物理智能的应用可能会比To C更快实现,而生物智能的To C应用可能会更快一些。不同领域的情况会有所不同,但总体上To C和To B都包括开源模型、商业闭源模型、基础大模型、垂直行业模型和边缘模型。Sora 的下一步是什么?
CLIP 的出现标志着范式的重要转变,我们不再需要手工制作标签来训练分类器,而是可以利用互联网上的重构文本来学习一个适用于所有领域的通用分类模型。例如,如果要对动物进行分类,只需构建一个待分类动物种类的提示列表,然后使用图像嵌入与所有标题的点积,并通过 Softmax 来确定图像所属的类别。图像表示学习也在不断演变。深度学习的成功最初体现在图像分类论文中,分类器仅从图像中提取类别标签等少量信息。CLIP 的出现使得我们可以利用互联网的重构文本来学习通用的分类模型,减少了手工特征工程的需求。不久后,图像描述生成器也被证明是可扩展的视觉学习器。我们可以训练一个感知模型,该模型作为图像编码器,查看图像并重建标题,就像一个从图像学习预测文本的语言模型。随着时间的推移,事情似乎变得越来越简单。我们可以思考,当我们的浮点运算预算增加时,我们最终会做什么?目标函数和我们从图像中学习的方式似乎已经改变。随着计算能力的增加,事情似乎变得更简单。iGPT 表明,大规模生成模型自动学习数据的基础结构,最终产生良好的图像表示。类似的结果也适用于文本到图像模型。论文 "Your Diffusion Model is Secretly an An Ensemble of Classifier-Free Guidance Samplers" 的基本思想是,即使在建模给定文本的图像分布时,该模型也可以转换为分类模型。其工作原理与 CLIP 非常相似,给定图像和候选标题,可以使用扩散模型计算图像与标题匹配的评分。这比 CLIP 更昂贵,但其工作方式类似,即在图像和候选标题之间提供兼容性或相似性评分。该论文表明,实际上稳定扩散能够获得良好的 ImageNet 探测结果。现在,这使我们能够从一个模型基于图像学习文本的范式转变到一个模型基于文本学习图像剩余信息的范式。但不清楚这样做是否有效,或者我们需要花费多少额外计算来做到这一点。在研究 DALL-E 时,我们发现训练一个文本到图像生成模型在使用更具描述性的标题时变得更高效。如果用非常描述性的标题训练模型,那么训练更短标题的性能也会更好。这表明,也许我们可以通过使用语言作为支架来获得更好的无条件模型。对话Juergen Schmidhuber教授,AGI趋势洞见
硅星人CEO骆轶航在与“LSTM之父”Jürgen Schmidhuber教授的对谈中提出了五个大家对于AGI最关心的问题:AGI能力是否被过度炒作了?
骆轶航:再次感谢Schmidhuber教授,感谢您为我们带来了关于机器学习和人类对AGI的梦想与实践的辉煌历史叙述,以及您三十多年来在人工智能领域的个人研究旅程。
我的第一个问题是关于您对人工智能的炒作与现实的个人看法。作为在AGI领域工作了几十年的人,对于当前围绕AGI的炒作,公众如何区分真正的进步和只是一些流行词?您能否评论一下过度炒作AGI能力的风险?
Jürgen Schmidhuber:是的,自从上世纪七十年代开始炒作人工智能以来,我就一直关注这个领域。那时,很多人认为我疯了,因为我相信在我有生之年我们可能会拥有类似AGI或超人人工智能的东西。直到最近,随着人们发现可以从中赚钱,才开始有更多人加入这个领域。当时,几乎没有人对此感兴趣。现在,很多对AI了解不深的人也开始做各种有趣的预测。当然,目前我们还没有真正的AGI,至少在可预见的未来还看不到。然而,我们有一些理论上最优的东西,理论上和数学上最优的AGI。
比如,谷歌的机器,我在2003年的工作,可能在数学上是最优的自我改进机器。我在2005年与我的博士后Michael一起研究了通用AI,当时我获得了瑞士研究基金的资助。也许你知道,Marcus有一本关于这个主题的书《Noise》,他在2024年推出了新版本。这远远超出了单纯的AGI,是关于通用AI的。
现在最大的问题是,AGI何时不仅在数学上最优,而且在实际中也可见。通常当人们问我这个问题时,我不能告诉你具体的年份。我会说别担心,这可能仍需要几个月,甚至几年。但我已经说了几十年了。
一旦我们拥有了AGI和物理定律,一切都会改变。我不明白为什么会有那么多对AGI的炒作。与真正将要发生的事情相比,这些炒作不算什么。我认为AGI的潜力被低估了,而不是被过高估计了。
人工智能如何能够有效地和道德地与物理世界整合?
骆轶航:好的,那太好了。正如您刚刚提到的报告中的一个关键方面。它涉及人工智能与物理世界的脱节——您提到了人工智能的虚拟成就与其在物理世界面临的挑战之间的差距。
为了使人工智能能够有效地和道德地与物理世界整合,需要哪些关键进展?我们该如何应对可能导致的工作岗位流失问题?
Jürgen Schmidhuber:是的,我认为在硬件方面还有很多工作要做。很快我们就会拥有比大脑更多、更便宜的电脑。然而,没有任何机器人的手可以与人类手相比。人类手有数百万个传感器和大量连接这些传感器的电缆。如果我想建造这样的东西,我甚至不知道如何放置所有这些电缆。而且人类手甚至可以自我愈合,这完全是一个奇迹。
我们实验室里的机器人就像婴儿,非常虚弱。如果你把大型工业机器人用于强化学习,它们会迅速执行随机动作,自杀并毁灭自己。所以我们有非常弱的小机器人,它们像婴儿一样,不会自我毁灭。人类婴儿非常虚弱,但不会真正伤害自己。我们正在用许多传感器和摄像头构建类似的东西,通过人工好奇心,让它们进行许多自我生成的实验,以了解物理世界的工作原理和反应方式。
这种弱小的机器人将成为AI未来发展的核心,而不是你在汽车工厂看到的大型机器人。未来我们将有学习型机器人,它们必须像人类一样逐渐学习和适应。
中国物理AI的进展迅速。
骆轶航:好的,那太好了。我还想补充一点。中国在这个领域确实取得了进展。在中国东南部的深圳、东莞或广东省的一些城市,有很多机器人公司和硬件公司正在将更大的语言模型融入他们的设备中。我认为这方面的发展非常迅速。
Jürgen Schmidhuber:是的,我认为中国将在这一领域取得巨大进步。我知道,就在几年前,德国最大的机器人公司被一家中国公司收购了。所以,这是真的,而且非常重要,因为在未来,最大的经济体不会是拥有最多人口的国家,而是拥有最智能机器人的国家。三十年前,也就是1995年,超过一半的机器人仍在日本。当时,日本的经济实力几乎与美国相当。
但今天,中国在机器人领域的角色越来越重要,显然比日本更具影响力。在生产方面,中国现在处于领先地位。所以我认为我们会看到中国在这个领域取得很多进展。
开源or如何防止大公司垄断?
骆轶航:好的,我非常赞赏您的观点。这里可能还有另一个问题,您对AI的民主化非常乐观。您提到,目前的担忧之一是人工智能可能会被一些公司垄断。那么,可以采取哪些具体措施来防止这种情况并确保公平分配利益呢?
我个人是开源成就的倡导者,认为开发开源模型和提供开源工具或基础架构可以帮助更多人在AI上取得成就,实现通往AGI的多样化路径。因此,采取哪些具体步骤可以防止AI被少数几家公司垄断呢?
Jürgen Schmidhuber:是的,就像我之前提到的,我认为AI不会被几家大公司控制。虽然大公司可能会每年在Nvidia GPU上花费数十亿美元,但这种优势是暂时的。每五年,计算机的成本会降低十倍,性能会提高。这意味着在未来三十年内,计算机将变得比现在便宜一百万倍。
开源运动紧随其后。尽管大公司有很多资金,但他们无法与成千上万甚至数百万的博士生竞争,这些学生会采用最新的算法并发现改进方法。大公司试图监控开源网站并雇用最成功的人才,但年轻一代总是在追赶他们。所以,未来的增长趋势不会停止,物理极限还很远,我看不出几个大公司如何能控制所有事情。
我们的大脑可能每秒能进行十到二十次操作,但这已经是非常保守的估计了。而物理极限远远高于这一点。根据物理定律,一公斤物质的计算能力可以达到每秒十的五十一次操作,比所有人类大脑加起来还要多十到二十倍。如果当前的趋势继续下去,未来一百年我们将接近这一极限。
所以我不认为AI会被少数几个玩家所主宰。
人们一直在警告AI和AGI的危险,其实并无新的观点。
骆轶航:现在我想每个人都知道您已经在AGI领域研究和宣传了几十年。让我们提出这个问题来结束这次演讲。您对AGI的未来持乐观态度,然而,在这个行业中,其他一些权威或学者可能不像您一样乐观。例如,杰弗里·辛顿曾多次批评AGI的未来,认为它可能会以某种危险的方式引导社会。那么,您如何看待杰弗里·辛顿关于AGI未来的观点?显然,您可能会对他的观点提出挑战,您对此有何评论?
Jürgen Schmidhuber:是的,我确实对他的观点提出了批评。我主要批评他没有引用其他AI研究人员的作品,而是重新发表了这些内容。我指责他是无意的或故意的剽窃,这在科学上是一个大问题。科学是自我纠正的,但有时需要一些时间来纠正这些错误。这将在稍后正式发生。
至于他对AGI的评论,其实是重复了很多人长期以来的观点。几十年来,人们一直在警告AI和AGI的危险,科幻作家也已经这样做了几个世纪。所以,我看不到他提出了任何新的观点。
骆轶航:好的,我想我们时间也差不多了。再次感谢您为我们带来的机器学习报告和关于AGI过去、现在、未来以及遥远未来的精彩历史叙述。我真诚地希望您继续成为一个具有远见的AI研究者,激励和指导我们在未来几十年中取得最好的成就。