零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音
“我们在 3 月底官宣零一万物,后面团队逐渐到位,6、7 月开始写下第一行代码,历时短短 4 个月时间,今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始,我的目标就是做一个世界级公司,能够进入世界的第一梯队。”
自四个月前李开复宣布大模型创业,业内就给予了众多关注。千呼万唤,李开复交出了第一份答卷。11 月 6 日,李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。
更多详情查看:
李开复 4 个多月后“放大招”:对标 OpenAI、谷歌,发布“全球最强”开源大模型
对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。
“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”
另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”
“模型团队非常重要,但并不是雇 50 个人、100 人就能解决问题,而是需要很强的团队。这通常不是很大的团队,团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为,人均 GPU 卡能用到多少决定了模型能力的上线。
零一万物内部建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,成员来自国内顶级公司、国内外顶级高校和跨国公司,负责大模型的研发。
在预训练阶段,高价值数据是最重要的,为此零一万物在数据处理上投入了非常大的精力。
首先,零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据,团队会先用 AI 能力进行系统化筛选,之后再做人工评估,基本会从一百多 T 数据里留下 3T 左右,包括一定比例的中英文数据,该数据保留率是其他厂家的 1/10 左右。
在训练中,Infra 团队花了很长时间研究 scaling law,即模型的预测能力。“我们不做各种试错,因为 GPU 资源非常昂贵,所以我们是要把规模化做好,当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高。“李开复介绍道。
Infra 团队表示,整个模型训练过程其实是动力学过程,中间每一步基本上都可以通过数学方式预测出来,而不需要做大量的实验。因此,团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索,还是模型结构的试验,这个方法都特别重要。
Infra 团队在 6B 上做各种实验优化算法和模型,并能丝滑地从 6B 推向 34B。借助该能力,Yi-34B 的训练成本下降了 40%。
“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’,也有人说模型训练一下就飞了,因为它没有收敛。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也大概率可以成功,我们实验后也成功了。”李开复表示。
关于算力资源,零一万物在很早时候就做了资源规划,现在的算力储备可以支持其用到 18 个月以后。另外,团队还建立了故障预测与故障解决大模型,利用模型本身为预训练过程中可能出现的问题设计相应的解决方案,以及如何以最低成本解决这个问题。
对于预训练,零一万物技术副总裁及 Pretrain 负责人黄文灏表示,过程中并没有特别关注指标,因为针对指标做优化也可能出现问题,所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标,但只要训练数据足够高质量,training dynamics 做得足够好,出来的模型效果自然会比较好。
另外,由于要将模型开源,零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务,也可以支持情感类任务。
之前的长窗口工作都是闭源的,无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现,开发者有大量基于长窗口模型进行微调的需求,因此这次直接开源了长窗口的 base 模型,开发者可以根据自己的数据去微调有效的长窗口应用。
一般来说,更长的窗口会带来更多的计算,计算复杂度也会指数级上升,还要解决数据完备度的问题,这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外,随着窗口越来越长,计算所需时间也越来越长,一旦端到端的反馈时间太长也就没有太大的意义了。因此,大部分模型都会限定窗口大小,零一万物限定了在 200K 以下。
技术团队进行了全栈优化,包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术,包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地,但考虑到实用性和成本的均衡,团队目前就开源出来现在的长度版本。
李开复表示,开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源,只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,那么开源让大家都有机会能够接触到大模型。”
“这两个模型的尺寸其实就是量身定做给开源社区使用的,资源多的可以用 34B,但是也不会需要特别不合理的资源,而 6B 可以让更多的开发者能够使用。”李开复称。
对于未来会不会开源更大模型的问题,零一万物技术副总裁及 AI Infra 负责人戴宗宏表示,这不取决于零一万物有没有更大的模型,而是取决于开源社区里的普通开发者有没有能力,或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下,更便宜的卡可以支撑更大的模型,我们一定会考虑把我们更大的模型开源。”
“我们对于未来的一个愿景就是,大模型时代不仅仅是人类跨向 AGI 的重要一步,它也是一个巨大的平台机会。”李开复认为,这个机会就是创造超级应用。
李开复解释称,如果说 PC 时代赋予给开发者用户的机会是 computer on every desk,移动互联网带来的机会是随时随地的计算,smartphone on every hand,那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,即 AI for everyone。
“PC 时代,微软 Office 就是超级应用;移动互联网时代,微信、抖音是相当好的超级应用;AI 2.0 时代,毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴,因为人类历史就是不断重复,每一个时代最大的机会跟上一个时代是可以推延的。”
李开复的考虑是,首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造,人来帮忙,这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native,没有大模型整个产品就不成立。”
其次,商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题:要么收入没有做好,要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司,就是因为他们的收入是有质量的。”李开复说道,“所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润、收入是高质量的、可持续的,而不是一次性在某一个公司上打下一个单子。”
李开复表示,AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露,Super App 的雏形将在不久后对外发布。对于这个 Super App,团队会从简单的功能开始,然后根据捕捉到的用户需求和技术精髓不断迭代。此外,该应用虽然面向国内,但也会面向国外市场。
“今天创业者最好的机会是在 AI 2.0 上面开发 App,如果找对机会、聪明快速勤奋地迭代,任何一个 App 都有机会成为 Super App,成为 AI 2.0 时代的微信、抖音。”李开复说道。
对于未来,零一万物表示,一方面会继续在 34B 规模上进行一系列开源动作,另一方面会进一步提高模型的智能极限。
“我们已经在训练千亿参数以上模型,但是我们觉得模型参数可以再提高一到两个数量级,达到万亿或者十万亿的规模。数据上,我们现在基于几十 T token 的高质量数据,未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉,零一万物现在已经在训练千亿模型,更大模型的所有前置实验也已完成,剩下的就是按部就班地训练。
此外,零一万物已经有了一个超过十人的多模态方面的团队,未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。
《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。
微信扫码关注该文公众号作者