王延峰：迫切需要重新审视我国大模型科研组织模式

2024-01-29 04:01

机器之心原创

作者：姜菁玲

ChatGPT 掀起的通用人工智能热潮仍在快速向前，产业竞争关键要素日渐明确，中美在通用人工智能领域的竞争也进入更高的战略层面。

上海是中国人工智能发展最先进的城市之一。在 1 月 26 日结束的上海市第十六届人民代表大会第二次会议上，第十六届上海市人大代表王延峰教授提交了《关于上海加快建设具有全球影响力的大模型创新集聚区的建议》（下称《建议》）。王延峰建议，上海应当集中精力，抢抓发展机遇，加快建设具有全球影响力的大模型创新集聚区，避免中美大模型方面的差距进一步拉大。

王延峰是上海人工智能实验室主任助理、上海交通大学人工智能研究院副院长。他持续关注全球大模型的战略发展趋势和路径选择问题，带领团队率先布局了医疗领域大模型的研发，并取得了国际领先的成果，包括全球第一个超过人类医生的胸片诊断大模型、全球第一个开源医疗多模态放射基础模型。

在《建议》中，王延峰指出，尽管中国的科技企业在大模型领域已投入巨大，但离产生 “世界级” 产品还有很大差距，在全球竞争中尚未显现出相应的领先优势。

“在刚刚过去的 2014 全球消费电子展（CES）上，已经陆续有以大模型为核心的创新产品亮相，它们不仅成为展会的焦点，也预示着美国大模型技术正接近突破性能红线，并投入实际应用。反观国内，基础大模型研发机构在数量上已超过全球其他国家的总和，呈现‘百模大战’的热闹景象，但似乎还停留在热衷‘刷榜上位’的阶段。”

针对这份提案，机器之心在最近对王延峰教授进行了专访。在当前瞬息万变的大模型浪潮中，王延峰强调了研究力量分散等竞争焦点问题，并且进一步提出了科研范式变革、储备下一代战略力量、构建创新试验大平台等具体的建议。

以下为专访问题：

机器之心：CES 刚刚落下帷幕，AI 是其中最重要的亮点之一。您观察到了哪些相关的产品或者变化？

王延峰：作为全球消费电子风向标，今年 CES 比较大的惊喜是有非常多有趣的 AI 产品深入到各种智能化生活场景中，同时经过一年多的发展，大模型也开始落地，一系列以大模型为核心的创新产品如 Rabbit R1 新型终端、雷鸟 Rayneo AI 眼镜 X2Lite、AI 助手 WeHead 和 RT2 机器人等纷纷亮相。在当前的全球舞台上，“大模型” 已经成为人工智能竞争的核心领域，是衡量国家科技实力的关键指标。因此这些大模型产品的推出标志着大模型技术已临近产业爆发的临界点。

机器之心：CES 是全球性的展会，中美双方的大模型以及它们所落地的产品被放到了同一平台比较，从这次展会里，您看到双方各自的表现、侧重或者差距是怎样的？

王延峰：在这轮全球大模型的竞争中，中国和美国显著地占据了 “领军” 地位。在大模型领域的投入和产出数量上，中国已经追平甚至超越美国，但在大模型的实际应用和产业价值转化方面，美国在全球竞争中仍然保持着显著的领先优势，真正达到世界级水平的仍然是 OpenAI、谷歌、Meta 等少数顶尖美国科技企业，这点从这届 CES 就可以清晰看出来。

一方面，从 CES 的 “玩家” 来看，中国企业参与数连年上升，今年超过 1000 家，已经占了全部参展商的 1/4，当然也贡献了很多亮点。经过多年积累，很多消费电子企业已经在部分领域拿出了 “世界级” 的产品，比如京东方、海信等在显示器件、VR 等赛道有所表现，TCL 孵化出了雷鸟，以及这次唯一 “出海” 的整车企业小鹏拿出了 “会飞的汽车”。

但是聚焦于大模型的产品落地，很遗憾的是国内高调投入大模型研发的企业集体 “失声”，联想的 AI PC 大热，但是有阿里基因的本地大模型仍然还在开发之中；ChatGPT 落地大众汽车，但车企的语音助手中也还没有中国企业的身影。虽然 Rabbit R1 这样的产品很有新意，但它并不是去年各大企业海量投入大模型的成果。

应该说，过去一年中我们国内的 “大模型热” 还没有演化成能力过硬、场景明确、生态贯通的产品。当然，我们也不用过于妄自菲薄，美国企业的产品也还处于 “瓜熟蒂落” 的前夜。但是毕竟英伟达、高通这些企业本身就牢牢掌控 AI 产业链中的核心部分，是大模型落地绕不过去的壁垒，这给了美国企业显著的竞争优势。

机器之心：在现在这个阶段，要在大模型的竞争中突围，最关键的可能是什么？

王延峰：大模型竞争的焦点是模型 “质的飞跃”：谁能领先实现通用人工智能的突破，谁就有望成为竞争的最终赢家。

领先企业如 OpenAI、谷歌和 Meta 正遵循规模法则，不断加大对基于 Transformer 框架的下一代大模型技术的投资和研发。他们的目标是加速大模型在通用能力上的突破。据悉，OpenAI 可能已经完成 GPT5 的训练，而谷歌推出的 Gemini 模型旨在技术上与 OpenAI 匹敌。Meta 最近也宣布投入巨资加强下一代开源大模型 Llama 3 的研发，其算力预计达到 60 万 H100，并将 FAIR 实验室纳入大模型研发团队。

这些企业通过将大模型应用于现实世界，基于人类的互动和反馈，不断提高对人类意图的理解，解锁更多技能，推动模型快速迭代更新。李飞飞和吴恩达两位知名 AI 科学家在 CES 展会上的对话也凸显了这一趋势，他们强调，2024 年的 AI 技术将更深入发展，成为科技革新和产业变革的推动力。CES 上出现的产品也表明大模型技术正接近性能红线的突破，即将投入实际应用。

这种研发态势预期将进一步扩大中美在大模型质量上的差距。

机器之心：为什么说 “这种研发态势预期将进一步扩大中美在大模型质量上的差距”？

王延峰：从 CES 展上已经出现的大模型原生态应用，我们可以看到美国在大模型产业生态上已经领先了我们一步，大模型研发属于 “基础研究 - 应用研究” 并行的巴斯德象限内创新，其创新路径不再是简单的 “基础研究 — 成果转化 — 产业应用” 线性路径，而是技术与市场互促驱动的复杂路径。

大模型的广泛应用需要与社会经济发展深度融合，需要通过探索世界进行新的知识生产。因此，除了提升基础模型的研发力度之外，我们看到 Open AI、DeepMind 首先在其背靠的微软、谷歌迅速构建起大模型的最初应用生态，率先推动技术迭代与应用创新形成价值闭环。OpenAI 在近期推出了其创新的 “GPTs” 框架和配套的 “GPT Store”，旨在驱动其 GPT 技术更为广泛的应用。

大模型的技术突破和场景创新必须在真实世界中，让模型基于与人类的互动与反馈，形成多模态的交互信号，推动数据的快速自动迭代与优化，真正建立概念表征，不断理解人类意图以解锁更多技能。

因此，OpenAI 和 Google 在研发布局上更加注重如何与真实世界进行对齐，他们纷纷在近期的组织改革中强化了这部分的研发。比如 Google Gemini 专项里为 Human Data 单独建立部门，Open AI 更是在 5 大部门条线里将 2 大条线设立为 Preparedness 和 Go-to-Market，其中包括了最受瞩目的 Super-Alignment 团队，并给予 20% 以上的算力支撑，以上举措均是瞄准商业落地。

除此之外，可以看到在更进一步的前沿研究上，Open AI 也在加大多模态、多智能体以及具身智能的研发，逐步打造系统性的战略布局。在技术发展和市场竞争中，先发优势和网络效应会导致领先的团队或公司在一段时间内保持其领先地位，使后来者难以追赶。

机器之心：客观上看，相比美国，目前国内大模型产业还面临哪些问题和挑战？

王延峰：尽管国内在基础大模型研发机构的数量上已超过全球其他国家的总和，展现出一场 “百模大战” 的热闹景象，但似乎存在过于热衷于 “刷榜” 现象，使得各种榜单成绩显得华而不实。近期，人民大学与伊利诺伊大学香槟分校的研究揭露了大模型评测中的漏洞，即一些模型在训练过程中利用了基准测试集的数据，这导致了评测分数的虚高和直接 “通关”。

这种五花八门的测试方法可能会导致技术的过度包装，以及后续市场的混乱。虽然国内多家大模型已经通过了生成式人工智能服务管理暂行办法的备案，并向公众开放服务，但真正广泛应用的案例仍然少见，也未在用户之间形成过硬的口碑，距离产生世界级影响力的产品还有较远的距离。在新一轮竞争中，中国大模型如何能够超越榜单的局限，以市场应用为导向，实现从数量到质量的转变，值得我们深思。

机器之心：您提到 “研究力量分散” 的问题，事实上在新技术发展的前期可能都会有一个泥沙俱下的扩张期，之后迎来大浪淘沙的收缩。您认为在大模型的周期里，“研究力量分散” 这个点为什么是值得注意的？

王延峰：大模型市场的 “赢者通吃” 特性强化了国内研发策略调整的必要性，即应集中力量办大事，专注于研发 1-2 个真正高质量的基础大模型。在这个以规模和技术优势决定成败的领域，零散和低效的努力难以取得领先地位。

因此，我们应重点聚焦于建立和强化少数高效、高水平的大模型研发团队，这不仅是提升国家科技竞争力的关键，也是形成聚焦效应、实现技术突破的必然选择。

目前国外人工智能人才呈现向产业界流动的重要趋势，这是因为例如微软、谷歌等科技巨头拥有全球领先的数据和算力平台，可以为科学家提供最顶级的资源配置，为前沿研究提供充分保障。我们也应当进一步思考如何能够在更大范围内实现战略科技人才的聚集，如何更有效地联合大学、研究院、科技企业等创新主体中分散的研究力量，形成人工智能科技创新共同体，来共同进行大模型研发攻关。

上海人工智能实验室与上海交通大学正在探索共建特区型的人工智能学院，打造教育科技人才三位一体的深度合作网络，推进下一代人工智能算法与框架的原始创新。

机器之心：目前大模型开发仍是一个商业性市场，参与的主体是商业公司，如果要去集中研究力量，应该怎么做？哪些主体做哪些事可能会是建设性的？

王延峰：大模型研发的核心在于其人才、技术和资本的密集集结，通常由少数高效能的研发组织主导。美国传统上依赖于新兴研发机构和巨型科技企业作为其主要推动力量，近期更是融入国家级战略科技力量。

2023 年 11 月，美国组建了包括国家实验室、国际顶尖研究机构和领先 AI 公司的万亿参数联盟（Trillion Parameter Consortium, 简称 TPC），旨在开发和改进大规模生成式人工智能模型，用于科学研究。

在研发上， TPC 万亿参数联盟通过纳入国家实验室、国内外顶尖研究机构构建了国际化研究网络。在市场上，美国已在科技领域构筑了国际生态，目前正在与重点垂直类以及传统制造业、工业等万亿级世界级寡头拉通。例如梅赛德斯奔驰与 Open AI 合作开发车载语音助手，宝马与亚马逊合作推出 Alexa 大型语言模型，美国最大的梅奥诊所和微软公司在医疗人工智能方向上开展研发合作。工业技术巨头西门子和英伟达也形成了战略合作关系…… 通过上述合作，技术创新成果能够直接与世界市场对接，有助于产生世界级的创新成果。

相较之下，我国大模型研发面临算力不足、中文语料稀缺、研究力量分散，以及创新重复等一系列问题和挑战。那么我们如何与行业深度融合？是否可以充分发挥国家科技战略力量的平台优势，率先与我国具有夯实数字化基础的行业领头羊加强合作，将大模型的触角渗透到经济和产业的细胞单元，驱动产业创新与经济转型？

例如，在媒体领域，用好如中央广播电视总台等国家级媒体的海量音视频资源，联合研发央视听媒体大模型作为新入口，率先促进传统媒体业务智能化的转型。在金融领域，在银行面临线下业务收缩时，利用大模型开展线上业务，加速向在线新经济转型。同时也可以鼓励国内平台企业，以平台优势提升大模型的竞争力，为更多行业带来智能化机遇。

机器之心：另外，算力限制的问题，从您的角度看到目前受限于算力，出现了哪些具体的问题？

王延峰：对于我国来说，尽管顶尖高校人工智能领域的杰出青年科学家具备了成为 “世界级选手” 的潜力，但巧妇难为无米之炊，由于算力等资源的限制，他们往往未能充分参与大模型的主流创新研究。因此，迫切需要通过创新体制机制，整合这些分散但极具潜力的科研创新力量，为他们提供充足的算力和科研资源支持，使他们能够自由探索 “下一代人工智能算法与架构” 的原创技术路径。

机器之心：对于算力的问题，一部分人持乐观态度，认为算力成本会逐渐下降，一部分持悲观态度，认为算力的限制问题只会越来越严重，您认为算力的问题可能会有哪些解法？目前您看到的算力限制情况如何，您对这个问题的预期如何？

王延峰：虽然当前算力发展遇到了如摩尔定律放缓等挑战，但同时也有诸多创新技术正逐步成熟，因此，我对算力未来的发展持谨慎乐观态度。首先，硬件上技术创新的潜力巨大。当前关于异构计算和量子计算的探索，都在试图突破算力的极限。未来，随着更先进的半导体技术（如纳米技术和新材料的应用）和计算模式（如量子计算、光子计算）的突破，算力必然有很大的提升空间。

其次从软件层面，优化模型的训练和推理的计算也是提升算力效率的重要手段。通过更高效的编程语言、计算框架、算法优化等方式，可以在现有硬件上实现更高的运算效率。这一方面已经有不少的努力，比如上海交大 IPADS 实验室陈海波教授团队推出的开源推理框架 PowerInfer，让大模型推理速度加快了 11 倍。

第三，随着新的模型架构和训练策略的突破，大模型也会向更绿色环保发展，对算力的需求量本身也可能会有所下降。

机器之心：另外一个角度看，在中美的大模型竞赛中，您认为中国的优势可能在哪里？

王延峰：根据产业革命的历史经验，中国在大模型产业应用领域拥有得天独厚的优势，包括巨大的国内市场、多样化的应用场景以及独特的海量数据资源。目前，模型训练数据的增长需求已经是模型扩展速度的三倍。据研究预测，高质量语言数据将在 2026 年耗尽，而低质量语言和图像数据将在 2030 至 2060 年间耗尽。我们通过建立大模型语料数据联盟等机制来挖掘私域数据的价值，保证高质量数据供应。

此外，与主要以盈利为目标且仅开源非尖端技术的国外私企不同，我国可以实施完全开源开放的策略。通过建立高质量的万亿参数大模型开源生态系统，我们不仅可以推动行业发展，提升大模型的整体竞争力，还能吸引全球人才加入协作，加速技术创新。这种开源战略不仅在国际上产生深远影响，也可能成为构筑我国大模型全球竞争力的关键途径。

大模型的竞争力核心在于其能否高效赋能于各行各业，并与社会经济发展紧密融合。借鉴美国万亿参数联盟的模式，我们可以整合国内数字化基础扎实的行业领军企业，针对各类应用场景和行业痛点提供创新解决方案，推动大模型深度融入经济和产业核心，形成有效的研发反馈闭环，提升大模型的综合应用能力，从而加快产业创新和经济转型。

同时，大模型技术风险和社会影响存在显著的不确定性，把握好创新与安全的平衡至关重要。通过定向选择一些先进力量建立有容错能力的大模型应用测试平台，监测大模型创新测试，及时发现和管理潜在风险，并汇集跨学科专家，鼓励公众参与，进行政策干预和社会影响实验，以确保在安全框架内探索最佳监管和治理方案。

机器之心：从 CES 上我们已经看到，AI 在端侧的落地已经越来越快，您认为大模型在端侧产品上的落地进程可能会是怎样的？您最期待的落地产品是什么？

王延峰： 今年 CES 展会上，有几个非常有创意的 AI 产品都是基于大模型开发创新的。比如 Cappella 能够基于大模型 “翻译” 宝宝的哭声，告诉你他们是饿了、不舒服、累了还是需要换尿布。但是也可以发现，虽然 AI 无处不在，但大语言模型的主要应用场景仍停留在 “聊天”。李飞飞教授团队展示了基于语言模型训练的机器人 RT2，为我们带来了对未来智能生活的想象，但目前这项工作还更多停留在实验室阶段。

大模型在自然语言理解和生成方面的优势使其成为智能助理和虚拟机器人的理想选择。通过集成大模型，这些产品可以更好地理解用户的指令和需求，并提供个性化的服务和支持。

从我个人来说，作为家长要天天与家里的 “神兽” 斗智斗勇，那么我最期待的是大模型在教育方面的落地，创新学习辅助工具，例如，基于大模型的智能教育助手可以回答学生的问题、提供解释和示范，通过 “因材施教” 的方式提高学习效率，提升学习效果。

同时，大模型的生成能力为创意和娱乐领域带来了新的可能性。例如，通过大模型生成的音乐、艺术作品和故事情节等，可以为人们提供独特的娱乐体验与精神享受。

机器之心：除了终端侧，您认为接下来 1-2 年内，大模型的落地情况在哪些领域是可预期的？

王延峰：我非常看好大模型在医疗领域的落地。医疗是业内公认的大模型的重要应用场景。OpenAI 和谷歌等大模型龙头企业更是在医疗领域重点布局。

作为一个未专门为医疗任务定制训练的通用型大模型，GPT-4 在处理医学文本方面已展现出非凡的能力。在医疗领域的实际应用中，微软旗下 Nuance 推出了基于 GPT-4 的临床笔记应用，微软联手 Epic Systems 利用 GPT-4 助力医护人员更有效地回应患者咨询并深入分析医疗记录。而 DeepMind 在其对标 GPT-4 的通用模型 PaLM2 的基础上微调得到的 Med-PaLM 2 也是在多项任务上超越了人类医生。

除了医疗文本处理外，当前更多的探索聚焦在医疗多模态大模型上，我本人带领团队发布了全球首个开源的多模态医疗基础模型 RadFM，在性能和多功能性方面都超越了现有的 GPT-4V 模型。它能够在多种医疗场景中有效运用，包括但不限于医疗影像诊断、影像视觉问答、诊断推理等。从 Nature、 Science、新英格兰等顶刊发文上来看，医疗大模型在不断技术创新突破。

但是我们也看到，在最后一公里上，还是充满挑战。日前，谷歌声称自主研发的医疗大模型 AMIE 已经通过图灵测试，性能超过人类医生。但是业内对此争议很高，认为其测试根本没有考虑到真实环境下医患交互的复杂因素。

当然，随着技术的不断进步和模型的持续优化，我们有充分的理由相信，这些模型最终将能够有效地融入日常医疗实践，为提高诊断准确性、优化治疗方案和增强医患互动提供强大支持。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章