Redian新闻
>
零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

公众号新闻

作者 | 褚杏娟

“我们在 3 月底官宣零一万物,后面团队逐渐到位,6、7 月开始写下第一行代码,历时短短 4 个月时间,今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始,我的目标就是做一个世界级公司,能够进入世界的第一梯队。”

自四个月前李开复宣布大模型创业,业内就给予了众多关注。千呼万唤,李开复交出了第一份答卷。11 月 6 日,李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。

更多详情查看:

李开复 4 个多月后“放大招”:对标 OpenAI、谷歌,发布“全球最强”开源大模型

对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。

“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”

另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”

如何解决算力和数据问题

“模型团队非常重要,但并不是雇 50 个人、100 人就能解决问题,而是需要很强的团队。这通常不是很大的团队,团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为,人均 GPU 卡能用到多少决定了模型能力的上线。

零一万物内部建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,成员来自国内顶级公司、国内外顶级高校和跨国公司,负责大模型的研发。

在预训练阶段,高价值数据是最重要的,为此零一万物在数据处理上投入了非常大的精力。

首先,零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据,团队会先用 AI 能力进行系统化筛选,之后再做人工评估,基本会从一百多 T 数据里留下 3T 左右,包括一定比例的中英文数据,该数据保留率是其他厂家的 1/10 左右。

在训练中,Infra 团队花了很长时间研究 scaling law,即模型的预测能力。“我们不做各种试错,因为 GPU 资源非常昂贵,所以我们是要把规模化做好,当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高。“李开复介绍道。

Infra 团队表示,整个模型训练过程其实是动力学过程,中间每一步基本上都可以通过数学方式预测出来,而不需要做大量的实验。因此,团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索,还是模型结构的试验,这个方法都特别重要。

Infra 团队在 6B 上做各种实验优化算法和模型,并能丝滑地从 6B 推向 34B。借助该能力,Yi-34B 的训练成本下降了 40%。

“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’,也有人说模型训练一下就飞了,因为它没有收敛。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也大概率可以成功,我们实验后也成功了。”李开复表示。

关于算力资源,零一万物在很早时候就做了资源规划,现在的算力储备可以支持其用到 18 个月以后。另外,团队还建立了故障预测与故障解决大模型,利用模型本身为预训练过程中可能出现的问题设计相应的解决方案,以及如何以最低成本解决这个问题。

对于预训练,零一万物技术副总裁及 Pretrain 负责人黄文灏表示,过程中并没有特别关注指标,因为针对指标做优化也可能出现问题,所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标,但只要训练数据足够高质量,training dynamics 做得足够好,出来的模型效果自然会比较好。

另外,由于要将模型开源,零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务,也可以支持情感类任务。

开源长窗口通用模型

之前的长窗口工作都是闭源的,无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现,开发者有大量基于长窗口模型进行微调的需求,因此这次直接开源了长窗口的 base 模型,开发者可以根据自己的数据去微调有效的长窗口应用。

一般来说,更长的窗口会带来更多的计算,计算复杂度也会指数级上升,还要解决数据完备度的问题,这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外,随着窗口越来越长,计算所需时间也越来越长,一旦端到端的反馈时间太长也就没有太大的意义了。因此,大部分模型都会限定窗口大小,零一万物限定了在 200K 以下。

技术团队进行了全栈优化,包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术,包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地,但考虑到实用性和成本的均衡,团队目前就开源出来现在的长度版本。

李开复表示,开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源,只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,那么开源让大家都有机会能够接触到大模型。”

“这两个模型的尺寸其实就是量身定做给开源社区使用的,资源多的可以用 34B,但是也不会需要特别不合理的资源,而 6B 可以让更多的开发者能够使用。”李开复称。

对于未来会不会开源更大模型的问题,零一万物技术副总裁及 AI Infra 负责人戴宗宏表示,这不取决于零一万物有没有更大的模型,而是取决于开源社区里的普通开发者有没有能力,或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下,更便宜的卡可以支撑更大的模型,我们一定会考虑把我们更大的模型开源。”

做 ToC 的超级应用

“我们对于未来的一个愿景就是,大模型时代不仅仅是人类跨向 AGI 的重要一步,它也是一个巨大的平台机会。”李开复认为,这个机会就是创造超级应用。

李开复解释称,如果说 PC 时代赋予给开发者用户的机会是 computer on every desk,移动互联网带来的机会是随时随地的计算,smartphone on  every hand,那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,即 AI for everyone。

“PC 时代,微软 Office 就是超级应用;移动互联网时代,微信、抖音是相当好的超级应用;AI 2.0 时代,毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴,因为人类历史就是不断重复,每一个时代最大的机会跟上一个时代是可以推延的。”

李开复的考虑是,首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造,人来帮忙,这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native,没有大模型整个产品就不成立。”

其次,商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题:要么收入没有做好,要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司,就是因为他们的收入是有质量的。”李开复说道,“所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润、收入是高质量的、可持续的,而不是一次性在某一个公司上打下一个单子。”

李开复表示,AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露,Super App 的雏形将在不久后对外发布。对于这个 Super App,团队会从简单的功能开始,然后根据捕捉到的用户需求和技术精髓不断迭代。此外,该应用虽然面向国内,但也会面向国外市场。

“今天创业者最好的机会是在 AI 2.0 上面开发 App,如果找对机会、聪明快速勤奋地迭代,任何一个 App 都有机会成为 Super App,成为 AI 2.0 时代的微信、抖音。”李开复说道。

未来规划

对于未来,零一万物表示,一方面会继续在 34B 规模上进行一系列开源动作,另一方面会进一步提高模型的智能极限。

“我们已经在训练千亿参数以上模型,但是我们觉得模型参数可以再提高一到两个数量级,达到万亿或者十万亿的规模。数据上,我们现在基于几十 T token 的高质量数据,未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉,零一万物现在已经在训练千亿模型,更大模型的所有前置实验也已完成,剩下的就是按部就班地训练。

此外,零一万物已经有了一个超过十人的多模态方面的团队,未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。

 活动推荐

《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档当着黄仁勋的面,微软一口气发布两款自研芯片,英伟达止步十连涨;滴滴杀入大模型,聚焦ToB商旅;零一万物回应架构争议丨AI周报OpenAI调查ChatGPT错误率升高问题;零一万物上线Yi微调模型;Adobe收购印度AI视频创企丨AIGC大事日报李开复官宣「全球最强」开源大模型:一次处理40万汉字、中英均霸榜改变中国的微信、快递,离不开李同志他们的努力突发!微信、抖音、微博、快手、B站齐发公告!李开复发布零一万物首款340亿参数大模型Yi;摩尔线程设立AISG和MCSG战略部门丨AIGC日报Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型微信、快手、微博、抖音宣布部分“自媒体”账号将实行前台实名展示第四范式港交所上市 李开复:以AI 2.0技术穿透更多场景ChatGPT Plus暂停新订阅;零一万物发布Yi-34B训练过程说明;面壁智能发布AI智能体SaaS产品丨AIGC大事日报零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4零基础5分钟搭建一个私有知识的AI机器人,接入微信、抖音和飞书出大事!微信、小红书、微博、抖音、B站齐发公告!李开复说话算数:零一万物大模型首次发布,AI 2.0 正在路上微信、微博、抖音......集体官宣!《爸》&合唱《还想听你的故事》收藏版 | 支付宝、微信、抖音调查取证攻略身家720亿!邝肖卿首次成为中国女首富;零一万物回应大模型架构争议;字节跳动上半年营收约为540亿美元;雀巢回应网易举报丨邦早报钢琴考级到十级有什么用?AI早知道|抖音即创平台上线;零一万物发布并开源Yi微调模型;亚马逊宣布推出全新一代语音基础模型驱动的ASR系统低调发育 8 个月后,李开复和他的大模型团队首次亮相别再声讨零一万物了微信、微博、抖音…,集体官宣!心平气和聊聊李开复的零一大模型套壳LLaMA这件事下架!微信、抖音、快手,集体出手OpenAI:GPT-5 目标人脑超级 AI;被曝抄袭 Meta 大模型,零一万物:将更新代码;华硕、福音战士联名主板印错英文星巴克创始人退出董事会,阿里前女高管接替!她曾兼任央视主持人,采访过孙正义、李开复...咀外文嚼汉字(284)“盗人猛猛”最强开源大模型刚刚易主!李开复率队问鼎全球多项榜单,40万文本处理破纪录李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型我是销售冠军(4)数字钥匙进入3.0时代,他们要做智能汽车时代的「微信」夏婳:两情难相知(二)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。