Redian新闻
>
浪潮信息发布“源 2.0”,千亿参数大模型开源可商用

浪潮信息发布“源 2.0”,千亿参数大模型开源可商用

公众号新闻

作者 | 凌敏

11 月 27 日,浪潮信息正式发布千亿级基础大模型“源 2.0”。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。在 HumanEval、AGIEval、GMS8K 榜单中,源 2.0 可比肩 GPT4。

1 聚焦算法、数据和算力,源 2.0 如何再升级?

2021 年,浪潮信息曾发布中文巨量模型“源 1.0”,其参数规模为 2457 亿,该模型在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。

据浪潮信息人工智能软件研发总监吴韶华博士介绍,与源 1.0 相比,本次发布的源 2.0 在算法、数据和算力三大方向上均有升级创新。

在算法创新方面,源 1.0 的结构是一个典型的 Transformer 结构,而在源 2.0 中,团队在模型结构算法方面进行了重大创新,在 Transformer 结构中完全替换了自注意力层,创新型地提出新型 Attention 结构:局部注意力过滤增强机制 LFA(Localized Filtering-based Attention),通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,模型能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,为大模型创业者和开发者提供更加丰富、全面的助力,和更加开放的技术创新空间。

之所以设计这样的模型结构,是因为在经典的 Transformer 结构中,主要依赖自注意力机制来学习输入词之间的关系。以“我想吃中国菜”为例,当这句话输入模型时,首先需要进行分词,分词后可能会得到“我”、“想”、“吃”、“中国”、“菜”这几个词。然而,在自然语言中,“中国”和“菜”这两个词之间存在更强的关系和局部依赖性,“中国”直接修饰“菜”,而不修饰其他词。这种局部依赖性是自然语言中的一种强烈特性或模式。因此,浪潮信息团队设计了 LFA 结构来更好地捕捉这种局部依赖性,从而提高模型的效果和性能。

“在提出 LFA 结构的过程中,我们进行了一系列实验以寻找最佳结构。其中,最大的 Attention basic 实际上采用了 LLaMA 结构,消融实验中的模型也都基于 LLaMA 结构,唯一的区别在于 Attention 部分的实现方式。”吴韶华博士提到,相关研究表明,EMA 算法可以提高精度,降低测试损失值。但 EMA 在时序上全相关,计算逻辑复杂,需要使用快速傅里叶变换求解,导致计算开销非常大。因此,团队选择改进 EMA 结构。

“我们的改进方向是考虑 EMA 的局部性。最初,我们引入了卷积形式,通过变换卷积内核来实现全局结构和局部结构的互补。实验表明,随着卷积内核的提升,精度持续提升,但模型参数量和训练耗时也随之增加。由于参数量增加会导致更大的内存开销和训练成本,我们尝试保证更高精度的情况下降低参数量。我们将一层卷积改为两层,卷积尺寸保持不变,从而在计算量、内存开销和精度之间找到更好的平衡。为确保稳定计算,我们引入了 RMSNorm 机制。虽然这会增加一定计算耗时,但也带来了更高的精度表现。源 2.0 最终采用的算法结构是全卷积加上 RMSNorm 构建的 LFA 结构。”吴韶华博士补充道。

据介绍,源 2.0 的训练损失曲线表明,新结构可以有效提升精度、降低损失值。此外,源 2.0 在训练过程中的实际 tokens 数为 288Btokens,最大参数只有 1026 亿。与参数量为 2457 亿的源 1.0 相比,源 2.0 的训练损失值更低,说明源 2.0 对训练数据的特征学习能力更强。而这种改进主要归功于模型结构方面的优化。

在数据创新方面,源 1.0 主要使用了从互联网爬取的数据,团队通过构建一套海量数据清洗系统,对过去五年的中国互联网数据进行清洗,采用多种手段提纯数据,从 800 多 TB 压缩到 5TB,但这 5TB 的数据质量仍有提升空间。

在源 2.0 中,团队从两个角度构建数据集:一方面,从互联网上搜集本身质量较高的数据,如百科、书籍等;另一方面,筛选和翻译论文数据。此外,团队还引入了一部分独特的数据,包括社群数据和代码数据。为了获取高质量的中文社群数据,团队清洗了从 2018 年到 2023 年互联网上所有中文网页中的社群数据。经过清洗后发现,原始数据源约为 12PB,最终得到的中文社群数据量却只有不到 10GB,数据压缩比非常高。即便如此,其质量仍然不够高。

“我们采用了一种基于大模型生成高质量数据的方法,将这部分高质量数据用于预训练过程。具体构建策略是选取一批种子数据,进行扩充并放入大模型中生成合适的问题,再将问题送入模型生成合适的答案。在这个过程中,我们建立了一套自洽的逻辑来筛选数据。尽管这些数据是由大模型生成的,但我们仍然构建了一套额外的数据清洗流程来确保数据质量。我们将这些社群数据和代码数据应用于进一步的预训练的微调过程中。”吴韶华博士表示,这套数据构建方法能有效地解决互联网海量数据清洗中,即便投入大量精力也难以获得高质量数据的问题。当源 2.0 模型构建完成后,团队的后续计划是利用自己的模型生成更高质量的数据,形成一个数据循环,持续迭代并提升大模型能力。

在算力创新方面,为了使模型在各类计算设备上都有出色的性能表现,团队提出了一种创新的分布式计算方法,该方法结合了非均匀流水并行、优化器参数并行、数据并行以及损失计算分块。这种计算方法能够显著降低大模型训练过程中节点内 AI 芯片之间的通讯带宽需求。与传统的以张量并行为主的三维并行方法相比,这种方法具有更广泛的适应性,对带宽需求更小,同时能获得更高的性能表现。

为了对算法能力进行定量分析,团队还构建了两个性能模型。第一个是针对经典的张量并行、流水并行和数据并行构建的计算模型,这个模型考虑了训练过程中每一步迭代的耗时与各个参数之间的关系。在源 2.0 中,团队使用了分布式训练方法,并构建了第二种计算性能模型。这个模型考虑了流水并行、数据并行和优化器参数并行对整个计算时间的影响。

2 “百模大战”进入下半场,开源才是“最优解”

大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术 + 行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。

浪潮信息董事长彭震曾公开表示,面对“AI 时代”的来临,“单打独斗”已不适应大科学时代的科技创新。随着“百模大战”进入下半场,经过众多科技探索和市场试错,业界共识也已经逐渐明晰:繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下 AI 大模型企业重复造轮子的商业新范式。

首先,大模型需要巨量资金的持续投入,B 端市场同样面临这个问题,从这一点说,大公司做大模型更有优势和可持续性,能够保持长期的重型投入,不断迭代,这个能力对于 B 端市场十分重要;其次,“众人拾柴火焰高”,以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,才能为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,激发无穷创新力。

自 2021 年发布开源开放计划以来,浪潮信息通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。此前浪潮信息发布的“源 1.0”大模型作为一种算法基础设施,构建了完善的开源平台和社区生态,方便开发者能够将自己的创意快速落地。据介绍,有开发者基于浪潮中文巨量模型“源 1.0”训练,用 B 站评论训练出一个反诈 AI;也有开发者基于“源 1.0”开发了一个“AI 剧本杀平台”,目前,业内还没有完全开源可商用的千亿大模型。本次全面开源的源 2.0 可以助力更多开发者打造生产工具,让大模型在更多场景中落地应用。

此外,在 11 月 29 日的 AICC 2023 人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及 1~2 条示例,由源团队来进行数据准备、模型训练并开源。

浪潮信息高级副总裁刘军认为,大模型的开源能够促进整个产业的协同发展,回顾过去所有成功的开源项目,它们都是整个社区的共同贡献所取得的成果。这就是开源的核心精神,即“我为人人,人人为我”。“我们希望这个产业能够百花齐放、更加丰富。因此,我们开源了我们的工作和整个代码、模型,以便其他人可以在我们的模型上取得出色的表现。虽然我们的模型可能无法在每个方面与 GPT-4 相媲美,但在某些重要方面,我们展示了先进的能力。这样,我们的开发者和用户可以在我们的模型上产生出色的用户端应用体验,这对于生态的发展至关重要。”

当前,中国做大模型的公司与 OpenAI 仍存在较大差距,而开源能够释放整个社区的智慧,一起进行生态和能力的建设,这也是我们尽快追赶国外领先公司的可行路径。刘军提到,当前很多模型都选择开源,未来的生成式 AI 是一个多元化的生态,每个模型都可能有其最擅长的能力。比如,A 模型擅长这些部分,B 模型擅长那些部分,C 模型擅长其他部分。大家加在一起可能就是一个非常出色的能力集合。“这个场景一定会出现的,在行业用户最终部署时,可能会有不同的模型在背后支撑。这就是我们对开源的思考。开源不是有你无我的关系,而是共同发展、共同服务客户的生态。”

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

亚马逊 CTO 20 年架构经验之道:俭约架构师的七大黄金法则!

全球首款开源实时操作系统!开发了 20 多年、部署在超 120 亿台设备上的 ThreadX 正式开源

联手 OpenAI 最强竞对展开生成式 AI 反击战:亚马逊云科技将 S3 写入速度提升 10 倍、推出全新三层技术栈

Docker 的诅咒:曾以为它是终极解法,最后却是“罪大恶极”?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达英特尔推改良版芯片重回中国市场?产业链人士称属实;阿里巴巴CEO吴泳铭:即将开源国内最大的720亿参数大模型丨AIGC日报中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维李开复发布零一万物首款340亿参数大模型Yi;摩尔线程设立AISG和MCSG战略部门丨AIGC日报号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源中国有哪些好,哪些不好?36氪首发|OpenCSG完成数千万元天使轮融资,打造大模型开源社区与垂直行业模型​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型探寻西西里与马耳他的历史脚印(6)6020 血壮山河之随枣会战 南昌之战 13为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用首款生成式AI移动芯片天玑9300:能跑330亿参数大模型最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPTAMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023世界各国的产假比较探寻西西里与马耳他的历史脚印(5)最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”高通甩出最强芯片三件套!手机跑100亿参数大模型,PC芯片逆袭苹果英特尔正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报手机能跑百亿参数大模型,骁龙8Gen3来了,自研PC架构上线昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B传字节成立AI应用新部门Flow;淘天集团筹建大模型团队;浪潮信息开源千亿级大模型丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。