谨以此文致敬 ChatGPT 史前的「悟道」大模型先驱者。
故事的开头发生在 2018 年的秋天,北京海淀区。那一天,10 月 11 日,一个寻常的周四,刘知远像往常一样习惯性地打开 arXiv 的网页,浏览来自全球各地学者上传的人工智能(AI)领域最新工作。大多时候,arXiv 上的论文质量参差不齐,刘知远只粗略浏览来获取大致信息;但这一天,他却被谷歌语言小组所冠名的一篇论文所深深吸引了。原本只是点进去瞄一眼,结果越看越着迷、越看越吃惊,关上电脑后仍久久不能回神,为其中的思想所倾倒。果不其然,他很快发现,这篇论文也引起了国内其他人工智能学者的广泛关注,清华、北大、人大与复旦等高校的教师与学生也在热烈讨论该工作。大家都隐约觉得:「这可能是人工智能领域的又一次技术范式革命。」这个工作,就是后来大名鼎鼎、如今在谷歌学术上已被引用超过七万次的 BERT 论文——「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」。论文链接:https://arxiv.org/pdf/1810.04805.pdf在中文的语境中,「范式」并不是一个常见词汇。但在雷峰网走访大模型的过程中,这个词被反复多次提及,一次是形容 2012 年的深度学习,一次是 2018 年的 BERT,另一次则是 2022 年 ChatGPT 出来前的中国大模型创业方向:「那时大家没有朝通用人工智能(AGI)的方向去想,但觉得可以将大模型做成一个通用的人工智能范式。」这是后话。「范式」一词源于英文单词「paradigm」,意指一个领域的基础体系与架构,如西服、汉服分别是服装领域的两个不同范式,在这两个范式的基础上,服装师可以设计出各式各样、款式不一的服装。简而言之,范式代表了底层思路的变革,划分过去与未来。而 BERT 的「双向预训练」思路体现了这一潜力。AI 有三大方向:计算机视觉(CV)、自然语言处理(NLP)与机器学习(ML),其中 NLP 的终极目标是让计算机理解人类语言。那么,如何判断计算机已经理解人类语言?BERT 之前的很长一段时间里,NLP 的研究思路都是将语言理解拆分成细小的任务方向,如机器翻译、文本对比、语义分析等等,再针对每项任务分别进行 AI 算法的设计与训练。比如,刘知远在读博期间(2006-2011)的研究方向就是 NLP 的一项基础任务,叫「关键词抽取」。而 BERT 与传统方法的区别在于:传统的统计学习或深度学习是让 AI 算法直接学习某个任务(如文本对比)的数据,在学习这些数据前,AI 就像一张白纸,没有任何基础能力,训练出来的算法也只能执行一项任务;而 BERT 的预训练方法是在学习任务数据前,先让 AI 背诵海量的标注数据,相当于考试前先做了一遍卷子,因此训练出来的算法在之后的「考试」实战中表现更加出色。BERT 不是第一个采用预训练方法的语言模型;此前数月,OpenAI 发布的 GPT-1 也是预训练语言模型。但 BERT 的革新之处在于,它用双向训练的思路打破了原先预训练方法对指定任务框架的依赖。GPT-1 是单向结构,只能从左往右、或从右往左地来学习文本信息,因此训练出来的算法只能执行一项语言任务,如 GPT-1 擅长文本生成,但不擅长理解;而 BERT 是双向结构,能够同时从左边和右边学习语言表征,并在多个任务的海量未标注数据上学习,因此能同时执行知识问答、上下文填空、文本理解等多种语言任务,且在各项任务上的表现都超越了当时的所有模型,很快在语言理解权威榜单 GLUE 上霸榜第一。大家都对 BERT 的效果感到震撼,就像回到了 2012 年深度学习初显威力时:那一年,加拿大多伦多大学教授 Geoffrey Hinton 带领两个学生,Alex Krizhevsky 与 Ilya Sutskever(现 OpenAI 首席科学家),用深度学习方法训练出的 AlexNet 横扫世界计算机视觉大赛 ImageNet,将第二名开外的所有统计学习算法远远甩在后面,「深度学习」一战成名,连研究 NLP 的学者也在不断讨论。相比深度学习,BERT 当时的水花要小得多,但国内的一众 NLP 学者也感到了时不我待的急迫。虽然没有精确统计,但多位学者告诉雷峰网,2012 年深度学习崛起后,无论是研究还是落地,视觉都是国内 AI 圈中研究人数最多、研究热度最高的方向;从 2012 年到 2018 年,语言领域的变化不如视觉领域那么大,在拥抱深度学习的浪潮中也不是特别突出。刘知远隶属于清华大学自然语言处理实验室(THUNLP),孙茂松是该实验室的主任。2012 年,孙茂松正好牵头申请国家科技部的 973 计划项目,为了更好地 NLP 的未来技术路线,组织了北大、哈工大、中科大自动化所、百度在内的几个单位一起讨论。大家一致看好深度学习,于是项目成功申请后,THUNLP 也从 2013 年开始转向深度学习。后来,深度学习果然席卷全球。自此,「敢于自我革命」就成为 THUNLP 的研究精神。BERT 出来后,刘知远也很快决定转向预训练方法。他们的思路是用知识图谱的方法抽取出一条条抽象的知识,再注入预训练语言模型中,以此让模型变得更智能。他们与华为诺亚方舟实验室的刘群、蒋欣合作,很快研发出一个预训练语言模型,起名「ERNIE」,并投稿到 NLP 顶级学术会议 ACL 2019 上。巧合的是,2018 年百度的 NLP 团队也为 BERT 所震撼,并几乎同时完成了一个预训练语言模型,率先发表在 arXiv 上,且同样起名「ERNIE」。两个团队都是按美国动漫片《芝麻街》的角色命名,因为此前的预训练模型如 ELMO、BERT 都是《芝麻街》里的角色。谷歌用了 BERT,他们的目标都是对标谷歌,就想到了一块去。两个「ERNIE」在部分任务上的性能都超越了 BERT。百度在 arXiv 上的发布在先,THUNLP 与华为合作的论文被接收在后。为了与百度区分开,刘知远等人便将模型的名字修改了,百度则一直沿用该称谓。后来,百度炼大模型,中文名叫「文心」,英文名则一直叫「ERNIE」。不出所料,预训练迅速成为 NLP 领域的主流方法。同期,部分国际团队也有敏锐嗅觉,迅速跟上 BERT 的双向预训练方法。2019 年 2 月,OpenAI 发布了 GPT-2。虽然 GPT-2 比 GPT-1 的生成效果更好,但在许多语言任务上仍比不过 BERT,因此当时 OpenAI 的声量完全被谷歌压了下去。2020 年 6 月,OpenAI 突然发布了一个超乎所有人想象的研究成果——参数规模高达 1750 亿的 GPT-3。同是预训练语言模型,但 GPT-3 的参数量是 BERT 的 500 倍,不仅能做语言生成,而且在各项语言理解类的任务上也超过了 BERT。没有人想到,预训练语言模型的参数量被放大后会出现所谓的「智能涌现」。谷歌对于该现象的佐证论文也是一年后才发表。BERT 的参数量是 3.4 亿,与 2018 年的所有语言模型相比都是当之无愧的「大模型」,但大家的关注点更多在它的预训练方法上,根本没有想过像 OpenAI 一样直接「堆量」。GPT-3 堆量的行为就像让 AI 模型将整个图书馆直接死记硬背下来一样。结果,死记硬背的 GPT-3 不仅理解能力变得非常强,还具备一定的推理能力。乃至在一些未标注的数据与任务上,GPT-3 也能现学现卖,取得不错的结果。之前的语言小模型在注入知识后,智能水平也会随之提升,这是大家所能理解的。但 OpenAI 省略了从文本数据中抽取知识的环节,而是完全靠堆参数、让 GPT-3 硬学的「暴力美学」则让所有人都大跌眼镜。甚至有说法称,GPT-3 实际上已经通过了图灵测试。图灵测试由「人工智能之父」艾伦·图灵在 1950 年提出,全球的人工智能发展历经 70 年才首次通过,因此对 AI 圈的冲击非常大。GPT-3 不仅是自然语言处理领域的重大突破,更是 AI 领域的一个里程碑。一时间,语言智能的讨论达到了空前高度。不止刘知远等 NLP 学者,信息检索方向的相关人员也在不断讨论。更夸张的是,OpenAI 号称在训练 GPT-3 时用了一万张显卡。通常来说,高校科研中,算力设备的成本大约只占一个老师整体科研经费的 20%,拥有超过 500 张卡就是学术界的土豪级玩家。先前,国内外的 AI 科学家在研究 NLP 时大多是用单卡,或单机多卡,但 GPT-3 的训练一共用了一万张卡,折算下来大约 1200 万美金,超过 8000 万人民币。从工程搭建的角度看,训练 GPT-3 的工程难度也是前无古人。以 BERT 为例,3.4 亿参数的 BERT 训练工程量与 1750 亿参数的 GPT-3 训练工程量相比,就像造玩具车与造飞机的区别。玩具车的工程量不适用于航空飞机,同样,过去语言小模型的训练知识也不适用于大模型。GPT-3 对 BERT 的碾压,本质上是「大规模预训练语言模型」对「预训练语言模型」的碾压。一方面,大家为 GPT-3 沸腾;另一方面,内心又感到极大的落差。在此之前,国内的一众学者大多自我感觉良好,觉得国内团队发表的论文水平与美国高校不相上下;GPT-3 出来后,他们才知道原来自己与国际顶尖水平还有如此大的差距。2020 年夏天的北京五道口,清华、北大、人大、中科院等高校的计算机与人工智能学者都在关注 GPT-3。尽管当时没有人能说清 GPT-3 强大的机理,但直觉告诉大家,这是 AI 领域的一个重要分水岭。GPT-3 产生的冲击如此之大,以至于一些学者决定,无论如何都要研究大规模预训练语言模型,简称「大模型」。刘知远就是其中的一员。当时,研究大模型最突出的阻碍是算力,刘知远就一边去找清华高性能计算方向的陈文光、韩文弢等老师合作研究,想用分布式加速计算来降低大模型的训练成本,同时也将目光投向 THUNLP 之外,寻求外界的帮助。那时,孙茂松在距离清华东门不到一百米的一家新型人工智能研发机构里担任自然语言处理方向的首席科学家,刘知远也在其中担任青年科学家。很自然地,刘知远便想到了去该机构谈合作。这个机构,就是如今大名鼎鼎的北京智源人工智能研究院(BAAI)。但当时,智源只是一个成立不过一年半、正在发展建设中的研究单位。智源的成立是北京国际创新中心建设蓝图中的一角,由科技部与北京市共同指导成立,肩负人工智能前沿探索的使命。通过「智源学者」、「智源大会」与「青源会」等项目,智源链接了北京地区约一百位出色的 AI 科学家,与大家建立了紧密联系的同时,也注重与智源学者共同寻找 AI 领域的「下一个大事件」。智源研究院院长黄铁军告诉雷峰网,智源学者的评选本身就很严格,所以在评选出对应的学者后,智源会向智源学者提供对应的经费支持,且不要求提交研究成果;相反,智源更在意大家能一起探索出值得投入的重大 AI 方向。2019 年 4 月,智源确立了几个重大方向,包括自然语言处理、机器学习、信息检索等,每个方向都有 5 到 10 位知名学者聚集讨论。自然语言处理方向有孙茂松、何晓冬、刘知远等等,智能信息检索方向有文继荣、唐杰等等。GPT-3 出来后,几大方向的学者都在讨论 GPT-3,讨论要如何研究中国的大模型。前两次在北京的雁栖湖:2020 年 7 月是机器学习方向的会,该方向的智源学者认为 GPT-3 是一个大方向,如今语言大模型已经出来,应该研究视觉大模型,但讨论后觉得视觉大模型消耗的算力更大,所以没有付诸行动;8月是信息检索与挖掘方向,文继荣与唐杰等人在会上讨论语言大模型。到 9 月,在智源的院办公会上,刘知远提出想研究通用语言模型。国庆结束后,10 月 10 日,智源在雁栖湖又召开了一次讨论,邀请不同方向的学者参会,最终在会上达成共识,要组成一个攻关团队,在大模型方向上开展合作。立项后,智源在各个渠道发出「英雄帖」,邀请对大模型感兴趣的学者一同研究,并称「英雄不问出处」。召集令一出,与众学者的想法不谋而合,大家纷纷报名。最先举手的是清华与人大的老师,有刘知远、文继荣、唐杰、黄民烈等人。随后,北大与中科院等高校的学者也表示感兴趣,一些智源外部的成员也参与了进来,如当时在阿里巴巴达摩院任职的杨红霞。到最后,智源的大模型项目聚集了约一百人,时任智源副院长的唐杰被委任为项目总负责人。那年 10 月,智源研究院向时任北京市市长陈吉宁报告了这个「百人大模型计划」,陈市长很兴奋地表示:「这(大模型)是人工智能未来的核爆点,会带来整个产生生态的蓬勃发展。」北京市决定大力支持,并为智源批准专项经费购买算力。事实上,当时很多人还看不清大模型是什么,且大模型的研发需要高昂经费。但在 2020 年 10 月,从学者到智源,从北京市到科技部,大家都达成了一个共识,就是全力推进中国大模型的研发。事后,多位学者都向雷峰网表达惊叹:「很奇怪,当时大家都没有犹豫。」大家认为,大模型可以做成一件更大的事情。除了语言大模型,「数量引起质变」的思想或许也能在其他领域产生突破,于是,经过讨论,大家决定「兵分四路」,从四个方向开拓中国的大模型:中文大模型、多模态大模型、认知大模型与蛋白质大模型,依次由刘知远、文继荣与唐杰带领,其中唐杰负责后两块,相当于「三个团队做四件事」。2020 年 11 月,小组讨论命名。在顺义春晖园的自然语言处理年会上,孙茂松说,大家都是研究语言相关的,建议统一用「文」字开头。讨论后,四个小组共同以清代珍藏《四库全书》的七座皇家藏书楼中的四座进行了命名,依次为「文源」、「文澜」、「文汇」与「文溯」。为了表示大家是一个整体,智源建议起一个统一代号,就邀请大家到智源当时位于五道口的赛尔大厦开会。会上,唐杰提议命名与五道口有关,因为大家都在五道口、对五道口都有很深的感情,于是众人一起想了几个名字。一场头脑风暴后,人大的宋睿华提议叫「悟道」,与「五道」谐音,大家都说好。悟道的初衷很纯粹:追赶 GPT-3,研究中国的大模型。如今国内的大模型数量众多、种类纷繁,以至于大模型的定义被模糊化。但在 2020 年,悟道成员的认知很聚焦:归根结底,GPT-3 是一个以英文为主的语言大模型,而当时中国没有,因此,「中国的大模型」首先应该是一个参数量达到 1750 亿或以上、以中文为主的大规模预训练语言模型。尽管后来有研究表明,单一语种的语言大模型也具备一定的其他语种能力,但在中文的语境上,大家发现,用 GPT-3 来解决许多中文的语言任务时常会出现语义分歧、逻辑错误等等问题。一是因为 GPT-3 的训练语料以英文为主,二是中国的研究团队无从获知 GPT-3 的详细训练参数来精调。所以,无论是出于主观还是客观,2020 年,自研国产大模型都是一个无从推拒的选项。智源立项是在 2020 年 10 月,由于大模型需要大算力,智源也从 10 月份开始大力投入算力等资源。智源一开始是计划用既有的科研经费购买 300P,陈吉宁市长拍板要大力支持,又决定从专项经费中再拨款购买 700P,所以总共是 1000P。但审批与购买算力的流程持续了一年多,所以悟道启动初期主要靠租算力。大家相信大模型是未来的重大方向,相关学者也自带部分干粮来参加智源的大模型项目:人力上,各个老师带着各自团队的硕博生加入;资源上,智源算力还未完全到位时,学者们也通过各自的途径获取部分算力。例如,文继荣小组一开始是在人大的机器上训练多模态大模型,唐杰小组是在阿里云的机器上跑。虽然 GPT-3 的雷声很大,但在当时,像智源这样全力投入大模型的中国团队却不多美,悟道甚至一度被唱衰。唱衰的理由主要有两类:一是大模型的研发十分烧钱,计算成本动辄上千万;二是大模型非原始创新,只靠堆参数,技术含量不高。但智源还是「一意孤行」,坚决要探索。而等他们真正开始研究后,才发现:OpenAI 并非招摇过市的江湖骗子,大模型的技术门槛也并非只有「堆算力」、「堆参数」。以中文大模型与多模态大模型为例,悟道之前,全球 AI 在这两块的探索都是一片空白。加上他们是中国第一批训练大模型的人,相当于一切从头开始,过程十分挑战。但也正是凭借这股一往无前的勇气,半年后,悟道大模型便取得了飞跃的进展。悟道立项两个月后,2020 年 12 月,刘知远、黄民烈与韩文弢带领的文源团队便发布了全球第一个中文开源大模型「CPM」。CPM 的参数量只有 26 亿,与 GPT-3 相比微不足道,但胜在以中文语料为主。此外,与 2019 年的「ERNIE」相比,CPM 的参数量已经扩大了几百倍,这不仅是工程量的胜利,也验证了文源团队训练中文大模型的思路可行。文澜与文汇也几乎与 CPM 同一时间找到解法。文澜算法核心成员卢志武的「双塔」路线在 2020 年 12 月得到验证,文汇的百亿参数大模型在 2021 年 1 月完成。2021 年 3 月,智源将文源的 CPM、文澜基于 3000 万图文数据对训练的多模态模型 BriVL 1.0、文汇的百亿参数中英双语大模型 GLM-10B 与多模态模型 CogView 1.0 等成果汇在一起,统称「悟道 1.0」在 2021 年 3 月进行了发布。客观来说。「悟道 1.0」并没有引起太大的轰动,但在中国普遍对大模型还没有认知的时候,悟道告诉了大家「大模型是什么」,可以写诗、可以问答、可以图文对齐……比之前所有的 NLP 算法都强大。在「悟道 1.0」的发布会上,智源也首次提出「大模型」的概念。智源研究院院长黄铁军创造了一个金句,他称,近年来,人工智能的发展已经从「大炼模型」逐步迈向「炼大模型」,即:2012 年深度学习起来后,全球出现大量的 AI 小模型,而「炼大模型」是集约化训练大模型,设计更先进的算法、整合更多的数据、汇聚大量算力,一个模型能供大量企业使用。换言之,大模型不仅参数规模大,而且智商要高。这次发布会扫清了外界对智源的质疑,悟道大模型初露头角。在唐杰领导的文汇小组中,达摩院工程师杨红霞与循环智能联合创始人杨植麟是核心成员。智源没有限制悟道成员的研究自由,杨红霞参与阿里大模型,杨植麟带队循环智能与华为合作,2021 年 4 月,阿里也发布了 270 亿参数的大模型「PLUG」,华为发布盘古。悟道不仅成为学者之间的桥梁,也加强了学术界与工业界的合作。与文源一样,文汇团队也聚集了一批来自高性能计算方向的青年科研人才,如陈文光、翟季冬,他们与韩文弢均属于郑纬民院士的团队。对于大模型来说,高性能计算领域的分布式加速计算方法对于提高大模型的训练速度、降低其训练成本有着至关重要的意义。在悟道项目中,高计算人才也被委以重任。但对中国的大模型来说,高性能计算更大的影响力是催生了中国的第一个万亿大模型:「悟道 2.0」。2020 年年底,在推进悟道的同时,唐杰、陈文光与杨红霞三个人也在计划另一件事,就是申请号称「超级计算应用领域诺贝尔奖」的戈登贝尔奖。申请戈登贝尔奖的超级计算机需要满足几个要求:一是申请的超级计算机必须是世界上最大的;二,在该机器上研究的项目必须把机器跑满;第三,跑出来的项目结果必须有影响力。2021 年 1 月 GLM-10B 完成后,他们就决定在超算上跑大模型。于是,他们派了 30 多个人去山东青岛海洋实验室的「神威·海洋之光」上跑大模型。去的人中,唐杰与翟季冬的学生是主力,翟季冬因为其在底层算子上做并行训练的能力突出而被唐杰与陈文光拉来结伙,此外还有几个在线上提供支持的阿里工程师。(阿里也是国内最早研发大模型的团队之一,有关阿里大模型的发展历史,欢迎添加作者微信 Fiona190913 进行交流)他们将手上收集的所有数据都带去了青岛,包括中文、英文与图片等等,混在一起训练。因为戈登贝尔奖的要求是将机器跑满,所以他们将模型的参数量扩大到了 174 万亿,没有对数据进行任何收敛。在超算上跑了十天后,他们训练出几个版本的大模型,每个模型的参数量都达到了百万亿级别。虽然规模大,但运行的成本也极高,超出了几乎所有人的承担范围,于是他们就训练了一个较为收敛的基于 MoE 的模型,参数量 1.75 万亿,比 GPT-3 还大十倍,超越了谷歌 2021 年 4 月发布的 1.6 万亿参数大模型 Switch Transformer,成为当时全球最大的大模型,最终在 2021 年 6 月的智源大会上发布时成为全场焦点,直接被视为「悟道 2.0」的全部,受到了国内外顶尖科技团队的广泛好评。除了这个万亿大模型,「悟道 2.0」实际上还包含了文源团队的两个百亿模型(110 亿参数的中文模型、110 亿参数的中英双语模型)与一个千亿模型(1980 亿参数的中英双语 MoE 模型),统称为「CPM 2.0」;文澜团队的 50 亿参数图文检索大模型 BriVL 2.0——这是中国的第一个多模态大模型,也是当时世界上参数量最大、训练数据最多的多模态大模型。文澜之前,学术界研究多模态的主流路线是「单塔」,即 Transformer 有 12 层,看上去像一座塔,同时输入文字与图片的 token 进行交互,然后根据文字与图片的相似度打分。但在参数量极大的情况下,在线逐一比对的效率会非常低。卢志武于是提出「双塔」路线:图像先用图像编码器处理,文字也先用文字编码器处理,两者先不交互,等各自理解了更高层次的含义后再进行对比学习。如果图文的意思相近,则双塔的距离近,反之则远。因为他们事先用多机并行的方式将图像编码,变成一个个高维向量储存起来,所以在用文字检索时,只需将文字进行编码,不到一秒就能在高维向量中找到匹配的结果。文澜在 2020 年 11 月验证了「双塔」路线的可行性,两个月后 OpenAI 发布的 CLIP 架构(DALL·E 的幕后功臣)也是同样思路。事后,卢志武等人向雷峰网表示,他们并不认为自己是「跟在别人的屁股后面做研究」;无论是中文大模型、多模态大模型还是万亿大模型等等,悟道的三个小组都是深入无人区才开辟了一番新天地。为了研究多模态大模型,卢志武将自己的所有学生都投入到了文澜中,团队整整一年没有发表任何学术论文。在高校中,无论对教师还是学生来说,这都是极大的冒险。同样,在研究中文大模型时,由于缺乏高质量的中文数据,刘知远与黄民烈的许多学生被派去做数据标注与清洗。CPM 2.0 的研究中,文源团队搜集的原始数据高达 50TB,清洗后也有 2.6TB,学生在其中投入了大量的时间与精力。总的来说,智源与悟道的一百号人都是背水一战,「拿自己的职业生涯在赌」,只是大家没想到自己居然赌赢了:2021 年 6 月「悟道 2.0」发布后,智源悟道成为了中国大模型一面鲜明的旗帜,悟道成员成为中国大模型的第一批开拓者。实际上,2021 年被称为中国的「大模型元年」:悟道 2.0 发布后,2021 年 9 月,百度发布了百亿参数模型 PLATO-X;10 月,阿里达摩院发布参数量高达 10 万亿的大模型「M6」……随着各大团队的先后验证,尽管大模型的训练成本居高不下,但在 2021 年就出现了一批忠实的大模型追随者。不仅国内,海外也出现权威的声音:悟道 2.0 发布两周后,谷歌就发表了论文,称语言模型的参数从百亿扩大到千亿后会出现所谓的「智能涌现」;2021 年 8 月,斯坦福大学的李飞飞、Percy Liang 等百位学者更是联名发表了一篇「基础模型」(即大模型)的论文综述,在国际上引起很大轰动。但许多悟道成员知道,事实上,在 2021 年,真正的国产千亿大模型还未出现。悟道 2.0 的千亿模型与万亿模型上层都是一个稀疏架构。虽然模型的参数量通过稀疏化扩大,但底座仍然是百亿模型的能力。万亿大模型最终用硬盘拷下来的文件大小约为 20T,需要超过 500 张 A100 才能做推理,所以悟道团队将文件从山东拷回北京后自己也用不起,只能向工业界开放。有几家公司拷走了文件,「但估计拷回去也用不了」。此外,万亿模型包含中英双语与图片数据,与 GPT-4 的训练思路一样,理论上是一个「多模态大模型」。但当时,文汇团队没有解决一个技术上的问题,即 AI 模型的「灾难性遗忘」。他们发现,加入图片数据后,万亿大模型会出现「灾难性遗忘」,文本的能力被削弱,以至于万亿大模型的文本能力还比不上百亿模型 GLM-10B。近期关于 GPT-4 的泄漏信息也显示,GPT-4 与悟道 2.0 的万亿模型一样,是一个基于 MoE 的模型,参数量大约为 1.8 万亿。相比模型能力的突破,万亿模型的更大贡献是培养了一批真正懂得如何训练大模型的青年人才。那时,大模型对超算也是新鲜课题,海洋之光上只有简单的操作系统,为了训练大模型,当初被派去青岛的 30 多个人经历了从零到一的开拓过程,从底层算子改起,重写了上层的训练框架与算法等。所以,悟道 2.0 发布后,悟道的成员更加执着地要训练千亿大模型。2021 年年底,在悟道的内部会上,唐杰提了几个建议:一是训练一个千亿模型,二是开发一个文本-视频模型和一个代码生成模型。但每个模型的参数规模都很大,他们算了一笔账,发现完成这些目标要 1000 张卡不出错地连续跑两个月,训练成本极高。当时,智源只有 480 块 A100,把 400 块给了唐杰团队。在这 400 张卡上,唐杰小组研发了 10 亿参数的视频大模型(后升级到 60 亿),还向外界借资源训练了代码大模型。悟道 2.0 受到广泛关注,智源算力不足,鹏城实验室高文院士便邀请唐杰团队在鹏城实验室的 910A 机器上跑,陈文光也向唐杰支援了将近 2000 张华为的 920 显卡。那时,在大模型的训练上,华为 920 的算子效率只有 A100 的 18%,唐杰团队帮忙修改后将算子的效率提升到了 40% 左右,并训练出一个 130 亿参数的 CodeGeeX 代码模型,之后华为与唐杰团队的关系十分紧密。这期间,唐杰小组适配了市面上的各种卡,发现 2000 张 910A 卡不可能短时间跑出收敛的千亿大模型,而 DCU 也需要上万张卡跑两个月才能跑完。最后,唐杰以其创立的智谱 AI 的名义从济南超算上租了 1000 张卡,从底层重构算子,投入 20 多人训练了 8 个月,才终于在 2022 年 7 月训练出了千亿大模型——GLM-130B 横空出世。在唐杰炼千亿模型与代码生成模型时,黄民烈转去炼对话大模型,后来发布的 EVA 与百度 PLATO 是国内最早的对话大模型;刘知远在中文大模型的基础上探索可控生成的语言模型,搭建大模型开源框架 OpenBMB……而在唐杰完成从实验室到大模型创业的同时,中国第一批大模型公司陆续诞生:2021 年6 月,卢志武成立了「智子引擎」,探索多模态大模型的落地;2021 年 11 月,黄民烈创立了「聆心智能」,做有情感的超拟人大模型;2022 年 3 月,孙茂松的博士生、文源核心成员岂凡超创立了深言科技;2022 年 8 月,刘知远创立了「面壁智能」,探索高效训练的「平民版大模型」……2023 年,悟道的影响力越来越大:杨植麟离开循环智能,创立了「月之暗面」;杨红霞离开阿里达摩院,加入字节跳动带队大模型,是字节大模型的核心成员……智源的成立背景是北京 2018 年开始建设新型研究机构,推动科研机制体制改革,用灵活的科研方式促进北京人工智能的创新。此前,科研管理流程复杂,从立项建议到指南发布再到经费申请、评审通过,周期漫长,难以适应强竞争环境下日新月异的科研需求。按照这种体制,2020 年 10 月提出立项建议,最快也要 2022 年才能正式展开大模型研究。但在智源的平台上,悟道团队当即立项,只用了不到五个月就推出了 1.0 版,八个月就完成了 2.0,取得了卓越成果,这无疑得益于其灵活创新的科研体系。在大模型的推进过程中,智源立项迅速,学者一边建议,智源一边支持。多位学者告诉雷峰网,他们向智源汇报需要多少机器后,通常几天就能拿到资源,所以项目推进地很快。大模型的技术特质决定了其训练需要海量的计算资源,而实际资源总是有限的,多个团队竞争资源,智源算力已经捉襟见肘。在悟道 1.0 与 2.0 的过程中,各小组都需要不同程度地向外「讨」资源、「借」算力。与此同时,大模型也让大家看到新一代 AI 的商用落地前景。为了更好地探索大模型,一些学者就选择了离开智源,自主创业。悟道各团队基于大模型开发了许多前所未有的应用。比如,刘知远的学生秦禹嘉写了一套程序,用中文大模型调用 Bing 的搜索引擎来回答知乎问题,累计收获了数千个赞;卢志武团队用多模态大模型剪辑短视频,用宫崎骏的电影给歌曲配 MV 画面,在抖音上收获了 150 万的观看量……那时候,尽管大众对大模型的关注度不高,但悟道的成员都对这项新的技术感到无比兴奋。宋睿华每次出去演讲,给大家介绍多模态大模型,都十分高兴,称大模型是一只强壮的大象,「不要把大象关在冰箱里」。但可惜,2022 年之前,中国的市场并不愿意为大模型买单。2022 年,中国的 AI 全面进入资本寒冬。成立大模型公司后,他们都曾信心满满地出去融资,结果没有一个投资人愿意掏钱。智源悟道的所有大模型成果都是开源的。但据宋睿华透露,即使文澜发布后有上千万次的调用,一些感兴趣的大企业也不愿意付费使用。2022 年,国内对大模型的认知仍普遍不足。GLM-130B 完成后,智谱 AI 将其放到 GitHub 上开源,结果许多开发者都不会用,提出各种各样的问题,以至于他们开源几个月才积累了 1000 颗星。所有人都知道大模型很强,所有人也都知道需要一个「爆款产品」来呈现大模型的能力,但所有人都没有解法。技术上,他们成为了巨人;但在产品上,他们仍然是矮子。宋睿华在 2020 年 9 月入职人大,10 月参与悟道文澜研究。此前,她在微软小冰担任首席科学家,研究文本生成,是「小冰写诗」的项目负责人。2018 年从微软到小冰后,宋睿华开始对认知智能产生兴趣,想探索 AI 是如何理解人类语言的。那年夏天,她读了美国加州大学圣地亚哥分校认知科学教授本杰明·伯根写的一本书,Louder Than Words: The Science of How The Mind Makes Meaning(后译作《我们赖以生存的意义》),深受启发。该书指出,当人类在阅读一本好的作品时,常常会读到停不下来,脑海中浮现出与文字相对应的画面;而如果一段文字塑造地好,图画还会在读者的脑海里活灵活现。所以,当人类真正理解一段文字时,一个重要的表现应该是可以想象出一个场景,甚至补充文字里没有的内容。此外,理解语言不是为了用文字来做任务,正如很多时候看书不是为了第二天要考试一样。但在过去,计算机领域的科学家往往是通过设定一个个细分的任务来考量 AI 是否理解了人类语言,如将体育类的文章与财经类的文章放在一起进行对比,看 AI 是否能正确分辨。ChatGPT 之前,国内研究 AI 对话的技术人员多来自论坛时代。他们的研究思路主要是源于论坛时代的聊天「对」,如论坛上 A 发一个帖子、B 与 C 在下面回复,一楼一楼地叠起来。在这样的模式下,模型进行开放式对话时,就会暴露缺少知识的短板,因为知识不会在这些「对」中。宋睿华的一个同事在拜访客户的过程中,客户问是否能做一个美妆类的对话机器人,但大家发现当时的 AI 对话做不好,因为它们输出的内容以闲聊为主。那时,宋睿华就不断思考问题的所在。她想来想去,想到了当时 AI 对话缺少知识的症结所在:聊天「对」缺乏世界知识,要是能利用互联网上的所有文本就好了。在小冰时,她想到的解法是利用公众号的文章,因为公众号的博主会有意识地追热点,并从各个角度分析,信息都藏在文字里了,问题只在于如何将公众号的文章变成对话能用的文字。但棋差一招。宋睿华想得很复杂,认为要先把文字抽象成图谱,然后再影响对话。比如,输入「鹿晗」,图谱中会出现一个邮筒成为提示 AI 的线索,因为 2016 年鹿晗在上海外滩的一只邮筒旁拍了张照片,之后他的粉丝都到那个邮筒旁边打卡,该事件一度成为新闻。但这个方法有弊端:当时检索出文章中的原句做答复,有时候太过书面语,有时候带入多余的信息,并不是合适的回复。看到 OpenAI 推出的 ChatGPT 后,宋睿华才恍然大悟,内心既激动又震撼:ChatGPT 一出来,宋睿华就第一时间进行了试用,用完后感到十分惊讶。虽然都是对话机器人,但「小冰与 ChatGPT 就像两个物种」。ChatGPT 没有围绕某项任务来积累知识,而是先将知识学到模型里。就像人类在日常阅读中积累知识,读得越多、知识存量也会越多,遇到某个「线索」(prompt)再调用积累的知识,组合应用,而不是复述原文。宋睿华告诉雷峰网,她当时洞察到闲聊对话机器人缺少广泛的世界知识,也想到要用互联网上所有的文章去弥补不足,但就是没有 Ilya Sutskever(ChatGPT 的技术负责人)那样深厚的功力去解。在 Ilya 的认知里,所有语言任务的能力都可以简化为单一的「 AI 推理」能力。而 Ilya 又认为,所有的推理都可以通过预测下一个字来完成。例如,让 AI 看完一本侦探小说,掌握了小说里的所有人物关系与线索,然后在小说的最后一句,侦探站起来对大家说:「这个凶手就是 ____ !」这时,填空的内容就很考验模型的能力。有的 AI 模型逻辑能力强,能够填对人名;有的模型会填一个错的人名,但也表现出了一定的逻辑能力;而有的模型填的根本不是人名。Ilya 认为,推理就是预测下一个字的精度有没有提高。语言的理解很难定义,但可以用「预测」来代替理解。当 AI 不断地学习如何预测下一个字时,就已经学会了理解与推理。因此,IIya 解释 GPT-4 比 GPT-3.5 更强的地方时会强调「(GPT-4)预测下一个字的精度又提高了」。北师大、剑桥和微软的学者将 GPT-3.5 与 GPT-4 在智商与心理测试题上分别实验后也发现,GPT-4 的水平有明显的提升。这是国内的第一批大模型学者所没有想过的。在此之前,国内的学者普遍认为,人类很擅长数学推理,所以要将信息符号化、知识数学化。在这样的思路下,模型架构往往被设计得十分复杂,能力局限。但 ChatGPT 体现出了「简单至上」的美学,采用简单的框架再结合丰富的知识,同时有创新的交互形态,产品效果顿时焕然一新。自然语言的强大首次被重视。今年 5 月,在 MIT 的一个演讲中,Geoffrey Hinton 也指出,AI 不需要将信息符号化就能从文字中获得知识,因为人类也是靠语言来推理的。他举了一个例子,让宋睿华印象特别深刻:Hinton 曾问 ChatGPT「我们家有一些房间,分别是白色、蓝色与黄色,黄色油漆在一年内会褪成白色,如果我希望两年后我的墙都是白色,应该怎么办?」然后 ChatGPT 回答他说,「可以把蓝色的房间刷成黄色。」Hinton 大吃一惊,因为 ChatGPT 也许没有理解数字,但似乎理解了「褪色」是什么意思。尽管有用户向 ChatGPT 提问数学题来考验它的能力瓶颈,但在悟道的多位早期成员看来,ChatGPT 已经解决了一些当前 NLP 方向最难的技术问题,如长文本的道理连贯与内在逻辑。在一些专业的场景下,ChatGPT 生成的答案也许不如人意,「但这些问题都是可以被改进的」。ChatGPT 出来后,大模型一下子火了,原先不受关注的大模型公司,智谱、面壁、聆心、智子、深言……也成为了中国资本的明日之星。智子引擎原先融不到钱,ChatGPT 出来后天使轮估值一个亿,投资人甚至会问卢志武与其学生、智子引擎 CEO 高一钊「一个亿够不够」。他们坚信大模型是 AI 的一大未来,但没想到未来会来得如此之快。但拂去资本的浮华,对于求索语言智能的科学家来说,ChatGPT 更大的启示在于其对语言大模型的本质理解与产品想象力,而后者与 OpenAI 想实现的宏大目标——AGI 不无关系。ChatGPT 的产品几乎是完美的:它能读懂用户的意图,回答各种各样的问题,且每个问题都能给出一个不离谱的答案,,甚至在多数回答中展示了「知识」水平,由此在问答中转化为实际的生产力。这诚然离不开 Ilya 等人对神经网络与语言特征的深刻理解;但更重要的是,OpenAI 对未来有大胆的预测。所以,从 2016 年成立以来,所有人都说 AGI 是天方夜谭时,OpenAI 的团队就敢坚信这是人工智能的未来;所有人都选择 BERT 时,他们就能坚定选择 GPT。而智源悟道在探索大模型时,并没有这么大的野心;即使文继荣等人提出研究多模态大模型,也只是因为「人也是这样学习的」,并没有往 AGI 的方向想。ChatGPT 出来后,五道口的各大模型团队由于有先前的技术积累,所以也很快推出了相似的大模型产品。例如,智谱 AI 不到两个月就推出了 ChatGLM;智子引擎也在 3 月 8 日发布了 ChatImg……但他们更知道,自己距离语言智能的输出、乃至 AGI 还有很长距离。大家深知,ChatGPT 是一个启示,但绝非终点。2021年6月发布悟道2.0后,智源一直在思考,投入巨大的大模型,未来以什么样的方式赋能经济社会发展。悟道 2.0 发布时,黄铁军提出:大模型是「智力」的载体,以 AI 为中心的浪潮应该是智力运营,最底层是技术软硬件系统,最上层是 AI 应用,而大模型则处于两者中间,扮演「树干」的角色,大模型的意义是将「智力」变成像水、电、网一样的公共服务,通过云向大量企业或个人提供 AI 服务。「Model as Servive」(MaaS)也最早源于悟道。悟道走到 2.0 版,智源算力也只有 480 块 A100 卡,支持多个团队早已捉襟见肘,而新采购的 960 块 A100 还在路上,远水解不了近渴。在资源有限条件下,智源决定暂时不再追求扩大模型规模,而是把重心放在大模型算法创新上,悟道 1.0 与 2.0 所取得的所有大模型成果都开源开放,支持产学研各界协同创新。开源开放项目要最终成功,既要团结最广泛的研究开发者群体,更要有稳定的核心技术队伍。在与高校学者展开合作的同时,智源也开始对外招聘人才,建立智源独立的大模型团队。2022 年 1 月,前 IBM 中国研究院院长林咏华加入智源担任总工程师,2022 年 6 月领导建成大模型训练平台「九鼎」,总算力达到了1000P,同时专职大模型团队也逐步到位,悟道大模型研发进入一个新阶段,林咏华主管语言大模型方向,黄铁军主管视觉大模型方向。2023 年 4 月,智源被微软总裁 Brad Smith「点名」为「(全球)绝对领先的三家机构(three at the absolute forefront)之一」,与 OpenAI、谷歌齐名。2023 年 6 月,在第五届智源大会上,「悟道 3.0」发布,包括「悟道-天鹰」系列语言模型、「悟道-视界」系列视觉及多模态模型。与「悟道 1.0」、「悟道 2.0」不同的是,悟道3.0不仅仅是大模型,而是一套大模型技术体系,还包括「天秤(FlagEval)」大语言评测体系及开放平台与 FlagOpen飞智大模型技术开源体系,体现了更为宏观的大模型发展视野。另外,「悟道 3.0」已经超出了智源的范围,它是新一代人工智能旗舰项目「人工智能基础模型支撑平台与评测技术」第一阶段成果。2021 年悟道 1.0 和 2.0 发布时,「新一代人工智能重大科技项目」专家组就开始在讨论国家应该以什么样的方式支持大模型。智源的悟道是一次大胆的探索,但在这个过程中也存在各自为战的问题。于是专家组就提出,要探索一种开放的机制,加强「有组织科研」, 引导「大炼大模型」从「蛮力」竞争回归理性创新的轨道,推动中国 AI 学者一起开发大模型,通过布局一批关联项目,打造系统级成果,机制简称为「1+X+Y」体制。其中,「1」即「人工智能基础模型支撑平台与评测技术」旗舰项目,是引领大模型技术和产业发展的「航母」。「X」是一批关键技术项目,支持大模型核心算法和技术研发,采用「赛马制」动态遴选,由「1」对这些项目及所有愿意参加协同创新的技术和算法组织公开公平的评测,遴选出的优秀算法和技术进入大模型开源体系,得到国家项目支持但贡献小的团队将被淘汰,未得到国家项目支持但贡献大的团队来年优先得到支持。「Y」是一批应用示范项目,针对重大应用场景,采用旗舰项目构建的技术体系,推进人工智能的深度应用。大模型旗舰项目建议得到了科技部相关领导和部门的大力支持,列入国家「科技创新 2030」新一代人工智能重大科技项目 2022 年度指南,经过评审程序,2022 年 12 月「1+8」共 9 个项目立项成功,2023 年 1 月 1 日开始执行。而也就在中国大模型旗舰项目群成功立项启航时,ChatGPT 横空出世。在黄铁军看来,「我国在大模型方向是有前瞻性的, ChatGPT 出来前一年半,就已经布局航母舰队去主攻大模型。」OpenAI 另一个为人称道的特点是出色的组织能力。回顾悟道的发展,某种程度上,智源也是将一群关系松散、没有利益共同体的 AI 研究员组织在了一起,但与 OpenAI 相比,凝聚力仍不够。三个团队各自为战,好处是开辟了多个大模型方向,短板也很明显,就是「没有集中力量办一件大事」。
纵观当前的中国大模型,也是许多人都看到了大模型方向的价值,但选择各自为战。而黄铁军认为,从有利于未来发展的角度看,不仅需要大胆,是否团队作战也很重要。在科技迅速发展、日新月异的国际竞争环境中,只有集中力量,相互协调,才能产生重大的成果。
以数据标注为例。即使这是一块基础工作,OpenAI 也给予了高度重视,给数据标注岗的员工开出数十万美元的年薪。据雷峰网了解,目前国内的许多大厂并没有全链条思维,数据标注被划为边缘职能,要么选择外包,要么不计入工作考核的 KPI,数据质量难以保障,大模型的底座能力也难免受到影响。
围绕 AGI,OpenAI 也并非只有 ChatGPT 一张牌;两代 DALL·E 在文字控制图像生成上也体现出 AI 推理能力的进化。此外,OpenAI 还投资机器人智能等。在思考 AGI 这个终极目标时,OpenAI 的布局是一体的、系统的,而非单点的、局面的。(关于大模型嵌入式智能,欢迎添加作者微信 Fiona190913 讨论)
ChatGPT 出来后,宋睿华与孙茂松等人探讨技术之余,也开始思考如何能让中国的学生更自信,拥有乔布斯的精神,在产品上敢于「Think Different」,多思考自己「想」做什么、而不是「能」做什么。有一个庞大的目标后,再倒回来思考实现的手段,将大的目标拆解成无数个小的目标,通过各种途径将事情做成,不拘一格。
值得注意的是,智源悟道不只催生了中国第一批大模型公司,也影响了一批 90 后的 AI 硕博生:杨植麟、岂凡超、曾国洋、高一钊、霍宇琦……悟道 1.0 与 2.0 的团队中,超过 85% 的成员为 90 后青年学生。在经历大模型的垦荒后,他们又在过去的一年目睹了 Midjourney、ChatGPT 等产品的爆发,对于大模型时代的 AI 商用也有了许多不同的思考。
他们中的许多人,都有解决语言智能、乃至通用人工智能,将 AI 转化为社会新生产力的远大志向。随着经济发展的颓势渐显,科技兴国已成共识;过去十年,无论是视觉 AI ,还是自动驾驶,抑或今天的大模型,都是人们对新生产力构造的活跃社会的渴望。
一个时代有一个时代的困境;一个时代也需要一个时代的自救。唯有走不同的路,才能构造新的生存方式,而世界永远掌握在年轻人的手中。
本文作者自 2020 年开始关注大模型,欢迎对大模型、AGI、AIGC 感兴趣的读者添加作者微信(Fiona190913)交流、互通有无,添加请备注姓名、职位与单位。
https://www.youtube.com/watch?v=sitHS6UDMJc
福利票上线,免费抢3000元/张的大会通票
为答谢忠实读者,我们提供20张GAIR SUMMIT 2023免费门票,扫码下方二维码,或点击文末【阅读原文】注册,即可有机会获取,先到先得。