Redian新闻
>
零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音

公众号新闻

作者 | 褚杏娟

“我们在 3 月底官宣零一万物,后面团队逐渐到位,6、7 月开始写下第一行代码,历时短短 4 个月时间,今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始,我的目标就是做一个世界级公司,能够进入世界的第一梯队。”

自四个月前李开复宣布大模型创业,业内就给予了众多关注。千呼万唤,李开复交出了第一份答卷。11 月 6 日,李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。

更多详情查看:

李开复 4 个多月后“放大招”:对标 OpenAI、谷歌,发布“全球最强”开源大模型

对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。

“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”

另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”

如何解决算力和数据问题

“模型团队非常重要,但并不是雇 50 个人、100 人就能解决问题,而是需要很强的团队。这通常不是很大的团队,团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为,人均 GPU 卡能用到多少决定了模型能力的上线。

零一万物内部建立了一个 AI Infrastructure(人工智能基础设施技术,简称“Infra”)的团队,成员来自国内顶级公司、国内外顶级高校和跨国公司,负责大模型的研发。

在预训练阶段,高价值数据是最重要的,为此零一万物在数据处理上投入了非常大的精力。

首先,零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据,团队会先用 AI 能力进行系统化筛选,之后再做人工评估,基本会从一百多 T 数据里留下 3T 左右,包括一定比例的中英文数据,该数据保留率是其他厂家的 1/10 左右。

在训练中,Infra 团队花了很长时间研究 scaling law,即模型的预测能力。“我们不做各种试错,因为 GPU 资源非常昂贵,所以我们是要把规模化做好,当推到下一个尺寸时不要再摸索和试错了,因为尺寸越大成本越高。“李开复介绍道。

Infra 团队表示,整个模型训练过程其实是动力学过程,中间每一步基本上都可以通过数学方式预测出来,而不需要做大量的实验。因此,团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索,还是模型结构的试验,这个方法都特别重要。

Infra 团队在 6B 上做各种实验优化算法和模型,并能丝滑地从 6B 推向 34B。借助该能力,Yi-34B 的训练成本下降了 40%。

“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’,也有人说模型训练一下就飞了,因为它没有收敛。我们做的规模预测用数学科学可以推理,小的尺寸如果能成功,大的尺寸也大概率可以成功,我们实验后也成功了。”李开复表示。

关于算力资源,零一万物在很早时候就做了资源规划,现在的算力储备可以支持其用到 18 个月以后。另外,团队还建立了故障预测与故障解决大模型,利用模型本身为预训练过程中可能出现的问题设计相应的解决方案,以及如何以最低成本解决这个问题。

对于预训练,零一万物技术副总裁及 Pretrain 负责人黄文灏表示,过程中并没有特别关注指标,因为针对指标做优化也可能出现问题,所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标,但只要训练数据足够高质量,training dynamics 做得足够好,出来的模型效果自然会比较好。

另外,由于要将模型开源,零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务,也可以支持情感类任务。

开源长窗口通用模型

之前的长窗口工作都是闭源的,无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现,开发者有大量基于长窗口模型进行微调的需求,因此这次直接开源了长窗口的 base 模型,开发者可以根据自己的数据去微调有效的长窗口应用。

一般来说,更长的窗口会带来更多的计算,计算复杂度也会指数级上升,还要解决数据完备度的问题,这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外,随着窗口越来越长,计算所需时间也越来越长,一旦端到端的反馈时间太长也就没有太大的意义了。因此,大部分模型都会限定窗口大小,零一万物限定了在 200K 以下。

技术团队进行了全栈优化,包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术,包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地,但考虑到实用性和成本的均衡,团队目前就开源出来现在的长度版本。

李开复表示,开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源,只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做,但是任何技术都是需要全球化的参与,那么开源让大家都有机会能够接触到大模型。”

“这两个模型的尺寸其实就是量身定做给开源社区使用的,资源多的可以用 34B,但是也不会需要特别不合理的资源,而 6B 可以让更多的开发者能够使用。”李开复称。

对于未来会不会开源更大模型的问题,零一万物技术副总裁及 AI Infra 负责人戴宗宏表示,这不取决于零一万物有没有更大的模型,而是取决于开源社区里的普通开发者有没有能力,或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下,更便宜的卡可以支撑更大的模型,我们一定会考虑把我们更大的模型开源。”

做 ToC 的超级应用

“我们对于未来的一个愿景就是,大模型时代不仅仅是人类跨向 AGI 的重要一步,它也是一个巨大的平台机会。”李开复认为,这个机会就是创造超级应用。

李开复解释称,如果说 PC 时代赋予给开发者用户的机会是 computer on every desk,移动互联网带来的机会是随时随地的计算,smartphone on  every hand,那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用,即 AI for everyone。

“PC 时代,微软 Office 就是超级应用;移动互联网时代,微信、抖音是相当好的超级应用;AI 2.0 时代,毫无疑问最大的商机也会是超级应用,所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴,因为人类历史就是不断重复,每一个时代最大的机会跟上一个时代是可以推延的。”

李开复的考虑是,首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造,人来帮忙,这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native,没有大模型整个产品就不成立。”

其次,商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题:要么收入没有做好,要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司,就是因为他们的收入是有质量的。”李开复说道,“所以我们做的应用一定是朝着能够快速有收入,而且能够产生非常好的利润、收入是高质量的、可持续的,而不是一次性在某一个公司上打下一个单子。”

李开复表示,AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露,Super App 的雏形将在不久后对外发布。对于这个 Super App,团队会从简单的功能开始,然后根据捕捉到的用户需求和技术精髓不断迭代。此外,该应用虽然面向国内,但也会面向国外市场。

“今天创业者最好的机会是在 AI 2.0 上面开发 App,如果找对机会、聪明快速勤奋地迭代,任何一个 App 都有机会成为 Super App,成为 AI 2.0 时代的微信、抖音。”李开复说道。

未来规划

对于未来,零一万物表示,一方面会继续在 34B 规模上进行一系列开源动作,另一方面会进一步提高模型的智能极限。

“我们已经在训练千亿参数以上模型,但是我们觉得模型参数可以再提高一到两个数量级,达到万亿或者十万亿的规模。数据上,我们现在基于几十 T token 的高质量数据,未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉,零一万物现在已经在训练千亿模型,更大模型的所有前置实验也已完成,剩下的就是按部就班地训练。

此外,零一万物已经有了一个超过十人的多模态方面的团队,未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。

 活动推荐

《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李开复发布零一万物首款340亿参数大模型Yi;摩尔线程设立AISG和MCSG战略部门丨AIGC日报OpenAI:GPT-5 目标人脑超级 AI;被曝抄袭 Meta 大模型,零一万物:将更新代码;华硕、福音战士联名主板印错英文改变中国的微信、快递,离不开李同志他们的努力突发!微信、抖音、微博、快手、B站齐发公告!AI早知道|抖音即创平台上线;零一万物发布并开源Yi微调模型;亚马逊宣布推出全新一代语音基础模型驱动的ASR系统收藏版 | 支付宝、微信、抖音调查取证攻略零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4OpenAI调查ChatGPT错误率升高问题;零一万物上线Yi微调模型;Adobe收购印度AI视频创企丨AIGC大事日报钢琴考级到十级有什么用?数字钥匙进入3.0时代,他们要做智能汽车时代的「微信」星巴克创始人退出董事会,阿里前女高管接替!她曾兼任央视主持人,采访过孙正义、李开复...低调发育 8 个月后,李开复和他的大模型团队首次亮相微信、微博、抖音…,集体官宣!李开复说话算数:零一万物大模型首次发布,AI 2.0 正在路上下架!微信、抖音、快手,集体出手咀外文嚼汉字(284)“盗人猛猛”出大事!微信、小红书、微博、抖音、B站齐发公告!李开复官宣「全球最强」开源大模型:一次处理40万汉字、中英均霸榜夏婳:两情难相知(二)心平气和聊聊李开复的零一大模型套壳LLaMA这件事ChatGPT Plus暂停新订阅;零一万物发布Yi-34B训练过程说明;面壁智能发布AI智能体SaaS产品丨AIGC大事日报微信、微博、抖音......集体官宣!Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档最强开源大模型刚刚易主!李开复率队问鼎全球多项榜单,40万文本处理破纪录我是销售冠军(4)微信、快手、微博、抖音宣布部分“自媒体”账号将实行前台实名展示当着黄仁勋的面,微软一口气发布两款自研芯片,英伟达止步十连涨;滴滴杀入大模型,聚焦ToB商旅;零一万物回应架构争议丨AI周报身家720亿!邝肖卿首次成为中国女首富;零一万物回应大模型架构争议;字节跳动上半年营收约为540亿美元;雀巢回应网易举报丨邦早报别再声讨零一万物了第四范式港交所上市 李开复:以AI 2.0技术穿透更多场景《爸》&合唱《还想听你的故事》零基础5分钟搭建一个私有知识的AI机器人,接入微信、抖音和飞书李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。