Redian新闻
>
首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

科技



  新智元报道  

编辑:编辑部
【新智元导读】昨天,浪潮信息发布源2.0基础大模型,并一口气开源了1026亿、518亿、21亿三个大模型!而在编程、推理、逻辑这些老大难问题上,源2.0都表现出了令人印象深刻的性能。

国内首个全面开源的千亿模型,来了!

就在昨天,浪潮信息正式发布源2.0,无论是2B、51B,还是102B,统统都开源。

这一次,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化。

而且,还在算法、数据、算力方面,提出了三项创新。

开源地址:https://github.com/IEIT-Yuan/Yuan-2.0

算法方面,源2.0提出并采用了一种新型的注意力算法结构LFA(局部注意力过滤增强机制,Localized Filtering-based Attention),对于自然语言的关联语义理解更准确。

数据方面,源2.0使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,增加了高质量的专业数据集和逻辑推理数据集。

算力方面,源2.0采用了非均匀流水并行和优化器参数并行的分布式训练方法,显著降低了大模型对芯片间P2P带宽的需求。

源2.0:国内千亿级模型首次全面开源

从评测结果来看,不管是在HumanEval上,还是在GSM8K、高考数学上,源2.0模型都超过了ChatGPT,甚至接近GPT-4的精度。

由于源2.0具备生成单元测试的能力,因此团队在HumanEval评估中使用了SC(自洽性,Self-Consistency)方法。也就是,采用由源2.0-102B生成的单元测试作为评判标准,选出成功通过单元测试的候选者。

结果显示,自洽性可以显著提高模型的的性能。比如,HumanEval评测的正确率提升了10.3%,GSM8K提升了9.6%等等。

下面我们就来看看,源2.0的表现到底如何。

数学

首先是数学能力。

仔细看下面这道高考数学填空题就会发现,它的求解逻辑非常复杂。

这就要求模型不仅具备较好的基础知识,还需要有较好的推理以及计算能力。

从解题过程可以看出,源2.0-102B的推理路径正确,求解过程详尽,符号计算和数值计算均准确。在适当的位置上,模型明确地给出了最终答案,表现出了优异的逻辑推理性能。

根据GSM8K的评估结果,1026亿和518亿参数的源2.0,准确率都超过了76%。

与此同时,21亿参数的源2.0在准确率上也超过了规模大几十倍的Llama,达到了66.6%。

而在AGIEval高考数学任务上,源2.0的得分优于ChatGPT。

代码

代码生成上,源2.0表现出的优异性能让人印象深刻。

可以看到,下面这道HumanEval评测题出得非常刁钻,即便是经验丰富的程序员,也需要仔仔细细的读题,才能理解清楚。

其中这串拗口的指令「l和l'在不能被3整除的索引处完全相同,在能被3整除的索引处的值,等于l中对应索引的值」意味着需要构建一个子集。

这里,程序员很容易做错,但模型不仅理解了题目,而且还给出了正确的代码。

问题描述:这个函数接收一个列表l,返回一个列表l',满足以下条件:l'与l在不能被3整除的索引处完全相同,而在能被3整除的索引处的值等于l中对应索引的值,但是排好序。

def sort_third(l):    non_divisible = []     divisible = []     for i, num in enumerate(l):        if i % 3 != 0:            non_divisible.append(num)         else:            divisible.append(num) divisible.sort() result = [] d_index = 0 nd_index = 0 for i in range(len(l)):    if i % 3 != 0:        result.append(non_divisible[nd_index])         nd_index += 1     else:        result.append(divisible[d_index])         d_index += 1 return result

结果显示,在HumanEval评测集上,带SC的源2.0的准确率为77.4%,与源2.0的基本测试相比,性能提高了10.3%。

源2.0的详细提示示例如下——

在浪潮信息看来,基础大模型犹如大模型产业的地基,地基的深度和强度,决定了大厦的高度。

依托基础大模型,可以从垂直场景应用有针对性地切入,从而落地行业。

从长远来看,这是我们走向AGI的必经之路。

意味着什么?

而浪潮信息选择开源千亿级模型,也有着更高瞻远瞩的用意。

人们都说,2023年开源社区的荣光应当属于Meta。

今年2月,Meta打造的Llama席卷了整个开源研究领域,掀起了各种大模型爆发新潮——「羊驼家族」就此诞生了。

包括Vicuna、Alpaca、Dolly、RedPajama、Faclon等各种衍生模型泉涌而出。

紧接着7月,升级版的Llama 2面世,再到8月,Code Llama的开源,全都成为点燃生成式AI燎原大势的星星之火。

就在前段时间,Meta公布了当前Llama的生态现状,只能用两个字「震惊」加以形容。

在世界最大开源社区平台Hugging Face上,Llama模型的下载量超过3000万次。其中,仅在过去30天(9月份)内就超过了1000万次。

另外,发布在Hugging Face的Llama版微调模型,已经多达7000+个。

显而易见,Meta开源对整个大模型领域的研究产生了重大的影响,并为未来生成式AI奠定了坚实的开源基础。

一直站在「开源派」阵列的图灵三巨头之一LeCun曾在AI Native大会上称,「我认为开放是必然之路。因为大模型将成为社会人人依赖的基础设施,所以必须是开放的」。

在浪潮信息看来,「源2.0」模型的开源,同样希望能够为中国大模型生态体系的繁荣壮大,增添重要的一笔。

比如,更加轻量的20亿参数模型,不仅具有出色的能力而且还有更小的内存和计算开销,对于终端用户来说便是不错的选择。

众人拾柴火焰高,为了促进生态的繁荣,浪潮信息一方面以优秀的开源模型性能汇聚算力、算法、数据、人才、产业,另一方面以技术创新反哺大模型数据、工具、应用的迭代升级,可谓是目光深远。

更大参数,更好涌现

最初,在GPT-4刚刚发布时,可谓是「万人空巷」。

而它之所以能够如此炸裂,是因为在底层智力方面的提升,不仅完全吊打了一众中小模型,甚至直接拿到行业应用中也是如此。

近日,随着OpenAI定制GPT能力的开放,全球在短短几天内诞生了数千款应用,几乎每一分钟就会产生一个新的GPT。

这恰好印证了Sam Altman在首届开发者大会上所说,「我们正在孕育新物种,它们正在迅速增值」。
再加上新版GPT-4 Turbo上下文本处理上限更高,足足有128k,价格更加便宜,各种时代应用的爆款都被激发出来了。
举个栗子,一位开发者仅在40秒内,就做出了一个Hacker News的克隆版。
看得出,正是基础大模型拥有强大的智力和泛化能力,提供了扎实的底座,才能催生各种应用实现落地。
另一方面,根据谷歌、斯坦福等发表的论文「Emergent Abilities of Large Language Models」,680亿参数可以被认为是大模型是否具备涌现能力的一个门槛,如果参数超过1000亿的话效果更好。
举例来说,在上下文学习中,对于3位数的加/减法任务,最小只需要130亿参数就会出现涌现能力。而对于多义词判断复杂的任务,至少需要5400亿参数。

如何实现的?

由上可见,大模型参数越大,涌现能力也就更稳定,更出色。
但是,真正炼出一个媲美GPT-4的大模型,还需要在算法和数据上更多的创新。
OpenAI团队在「Scaling Laws for Neural Language Models」文中曾指出,模型的智力水平能力取决于其投入的数据、参数量及算力,也就是业界常提的「Scaling Law」。
模型参数量越大、投入的训练数据越多,模型泛化能力则越强。
但我们当前所面临的问题是,高质量数据逐渐面临枯竭。
大模型训练几乎用尽了互联网高质量数据,并且所需的数据集的增速,远大于高质量数据生成的速度。
连OpenAI也陷入数据荒,公开求合作,寻求训练模型的各类高质量数据
与此同时,巨量参数模型对算力大量吞噬,愈加凸显了未来大模型算力之殇的困境,它并不可被视为无所顾忌的资源。
那么,我们如何用同等算力,更高质量的数据,来换取更低的loss rate,把效率发挥极致,让算力更有效地匹配智能涌现?

数据的创新

众所周知,想要提升模型性能,充分的训练也必不可少。
DeepMind的研究显示,如果想把一个大模型训练充分,需要把每个参数量训练20个token。相比之下,GPT-3的每个参数只训练了1-2个token。
基于这个思路,DeepMind为新的Chinchilla模型准备了差不多4.7倍于Gopher的数据量(1.4T vs 0.3T),但是将参数量降低到了原先四分之一。
其结果就是,在相当一部分任务的表现上,700亿参数Chinchilla效果都要优于2800亿参数的Gopher。
无独有偶,采用更大数据量来训练的LLaMA,凭借着小得多的参数规模击败了GPT-3。
换言之,当前的千亿规模大模型,应该用多10倍的数据进行训练,才能达到比较好的水平。
因此,为了提升模型的性能,我们不仅需要更高质量,还需要更大规模的训练数据。
还是以GPT-3为例,它所使用的高质量数据仅占其数据集的17.8%,但其在模型训练中的权重却占到了40%。
然而,现在的问题在于,大模型训练所需要的数据集的增速,要远远大于高质量数据生成的速度。此外,对于具体的行业来说,其自身还普遍存在着高质量数据匮乏的问题,「特别是面向中文语境下的高质量数据集」。
面对高质量数据的枯竭,以及算力资源的限制,浪潮信息给出了它的思考与答案,立足训练数据来源、数据增强和合成方法方面进行全面创新。
相比于源1.0,源2.0减少了网页数据,并增加了百科、书籍、期刊等来源的数据 ,从而增强了模型数理逻辑能力。
其中,团队除了从互联网上获取数据之外,还引入了一部分独特的数据,尤其是在构建数学数据和代码数据的时候。

左:源1.0;右:源2.0
而第二种构建高质量数据的方式,则是用大模型生成。
为此,浪潮信息提出了基于主题词或Q&A问答对自动生成编程题目和答案的数据集生成流程,大幅提高了数据集问题的多样性。同时,辅以基于单元测试的数据清洗方法,让高质量数据集的获取更加高效,进一步提高训练效率。
具体来说,在构建高质量的数学和代码数据时,团队先随机选取一批种子数据,然后对其进行扩充,让大模型生成一批合适的问题,再把它们送到模型里,从而产生合适的答案。
这种方法不仅被用在了源2.0的预训练中,而且还可用于模型的微调。

算法的创新

在算法方面,经典的自注意力机制在学习整个输入序列中token之间的相互关系的时候,并不会假设输入的词之间存在某种先验的依赖关系,比如局部关系。
但实际上,在自然语言中,相邻词之间的关联往往较强。
比如把「我想吃中国菜」这样一个句子输入模型,首先就会进行分词——我/想/吃/中国/菜。
很显然,在这句话中,「中国」和「菜」是有更强的关系和局部依赖性的,这种局部依赖性,就是自然语言中一种较强的特性。
那么,如果能把这种局部依赖性引入到自注意力机制中,理论上就可以提升模型对自然语言的建模能力,进而提升精度。
为了更好考虑自然语言输入的局部依赖性,团队提出了一种全新的算法——局部注意力过滤增强机制(LFA)。
从图1中可以看到,LFA对局部性的引入,是通过两层嵌套的1维卷积操作实现的。
为了确保未来词的信息不会泄露到当前词中,卷积计算中采用了单边操作,卷积核的尺寸是2,在卷积之后应用了RMSNorm,一方面提升了精度,另一方面起到稳定计算的作用。
图2是LFA中的卷积操作,可以看到,位置3处的词通过两层卷积后,将会包含位置1与位置2处词的信息。
在采用卷积之前,团队首先尝试了建模时间序列局部性关系时最常用的EMA(指数移动平均)算法,并将EMA添加至自注意力的query与key张量计算之前的位置。
从表1中可以看到,采用EMA改进后的注意力模型,确实降低了测试集上的loss值,并获得了更高的精度。但同时也大幅增加了训练耗时,而这对于大模型的训练来说是难以接受的。
随后,团队将全局的EMA改为局部操作,并试验了不同的卷积核的尺寸。其中,当卷积核尺寸为7时,可以达到最优的精度,但依然极大地增加了参数量和内存开销。
为了在保持精度的同时降低参数量,团队采用了2层卷积堆叠的形式,并通过在卷积之后添加RMSNorm的手段,进一步提升了精度,并有效降低了参数量。
消融实验的结果显示,相比传统注意力结构,LFA模型精度提高了3.53%。
在最终的模型训练上,基于LFA算法的源2.0-102B模型,训练288B token的train loss为1.18 。
相比之下,源1.0 245B模型训练180B token的train loss为1.64。
也就是说,从源1.0到源2.0,train loss降低了28%。

计算的创新

然而,由于资源的限制,在参数和数据两者不可兼得时,又应该如何进行取舍呢?
OpenAI的研究结论认为,与增加数据量相比,先增大模型参数量,受益则会更好——
比如,用1000亿的模型训练2000亿的token和2000亿模型训练1000亿的token,后者的模型性能会更高。
但无论是提高模型参数量还是提升数据规模,算力依旧是支撑大模型智力水平提升的核心驱动力——需要用「足够大」的算力,去支撑起「足够精准」模型泛化能力。
因此,一定程度上也可以说——有多少算力投入,就有多少智能涌现。但当下,我们需要解决的是,如何把算力更有效地匹配智能涌现。
所以,应该如何更好地利用算力呢?
为了在各类计算设备上都达到好的性能,团队提出了一种分布式训练方法。
早在源1.0中,就采用了张量并行+流水线并行+数据并行的3D并行策略。
而源2.0在此基础上更进一步地提出了非均匀流水并行+优化器参数并行(ZeRO)+ 数据并行 + Loss计算分块的方法。相比于经典的3D并行方法,它对带宽的需求更小,同时还能获得高性能。
举个坚果,在均匀流水并行的时候,24层模型分到8个计算设备上,每个设备上会平均分到3层。
从下图中可以看到,这时内存在第一阶段就已经达到了GPU的上限。由此,模型的训练便需要更多设备、更长的流水并行线路,从而导致更低的算力效率。
而采用非均匀流水并行的方法,就可以根据模型每层对于内存的需求,结合内存的容量进行均衡分配,这样就能在有限的算力资源里把模型训起来了。
不过,流水线并行策略下,整个阶段依然是比较长的。
针对这个问题,团队把流水并行和优化器参数并行结合了起来。
采用优化器参数并行,就会进一步降低各个节点上内存的开销。内存空间省下来了,就可以合并成更大的流水线,减少节点使用数量,节省算力资源。
为了对两种分布式训练方法有定量分析,团队还特意构建了两个性能模型,测试证明,数据误差非常低。
用这两个性能模型对于节点类芯片之间的P2P互联带宽进行了模拟。
如果用经典的3D并行,当芯片P2P带宽从400GB/s降低至100GB/s,性能就会降85%左右。
但如果用源2.0的分布式训练算法,性能几乎不随带宽变化,仅降低0.4%。哪怕AI芯片之间的P2P带宽很低,依然能保持几乎不变的性能开销,这就大幅降低了大模型训练对P2P带宽之间的需求。
无论是96芯片,还是256芯片上,效果都类似。

率先布局,在不断前行中探索

大模型下半场,从来都不缺少在AIGC领域中布局的重要玩家。
据不完全统计,中国大模型赛道上,已经诞生了188+个模型,可见大模型暴涨速度如此之快。
作为算力龙头玩家,浪潮信息不仅在大模型领域,更是在AI算力基础设施方面深耕多年。
正是基于产品研发、客户需求、应用落地等因素,浪潮信息AI团队在算力系统的性能调校和优化方面积累了丰富的经验。
这些经验逐渐沉淀在产品AI服务器上,多年来在MLPerf的训练和推理取得了优异的成绩。
得益于自身实践,随着大模型的井喷式爆发,浪潮信息在8月正式发布了大模型智算软件栈 OGAI「元脑生智」(Open GenAI Infra)。
秉承全栈全流程、算力充分释放、实战验证提炼的设计原则,为大模型研发与应用创新全力打造高效生产力,加速生成式AI产业创新步伐。
在大模型领域的布局,早在2021年,浪潮信息率先推出了中文领域巨量AI模型「源1.0」,有2457亿参数,成功落地南京智算中心。
源1.0有着出色的中文理解与创作能力,并在许多榜单中霸榜,可与GPT-3相媲美。
「源1.0」研发过程中,浪潮信息AI团队完成了5TB高质量中文数据集的清洗工作。
最重要的是,团队逐步建立了完整流程和工具链,从公开数据爬取,到数据清洗、格式转化、数据质量评估。
「源1.0」开放后,基于「源」大模型的各种应用创新迸发,AI剧本杀,临小助数字社工、AI反诈等在业界引起了很大的反响。
与此同时,基于「源」大模型的研发经验,2022年以来,浪潮信息协助多个客户,将大模型训练GPU峰值效率从30%左右提升到50%,大大加速模型训练过程。
浪潮信息还将「源」大模型的智能力与To B领域复杂的服务场景进行深度融合,并构建首个「专家级数据中心智能客服大脑」,荣获哈佛商业评论鼎革奖。
基于AI算力平台,OGAI智算软件栈等积累,千亿级大模型「源2.0」的开源,将全面助力大模型领域开发者、创业者,激发AIGC时代创新。
浪潮信息高级副总裁刘军表示,「希望通过全面开源千亿级参数源2.0大模型,为业界分享浪潮信息在探索基础大模型领域的实践和成果,降低大模型创新的门槛,为大模型产业的发展提供更开放、更高效、更智能的基础大模型基座,促进AIGC产业生态的繁荣与可持续发展。」
正如Meta的模型Llama开源后,孵化出大量的开发者应用一样。在国内,开源的基础大模型也将成为推动AI创新和落地的重要手段。
大模型开源开放能够让算法数据等信息共享,打破技术孤岛,让更多开发者一起共创。
站在AIGC时代潮前,源2.0的正式开源,势必成为中国大模型开源生态的中坚力量。
参考资料:
https://github.com/IEIT-Yuan/Yuan-2.0




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用智源扔出大模型“全家桶”!推最强开源中英双语LLM,赶超Llama 2中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维驶向未来,首个多视图预测+规划自动驾驶世界模型来了中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生历数5年89篇研究,这篇综述告诉我们深度学习中的代码数据增强怎么样了引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞中秋话月饼通义千问2.0来了!实测编程打败8成Python用户,阿里云大模型「全家桶」炸场全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说红色日记 自由职业 9.7-30国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此我们之间全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码日治时期的旧铁路· “骑”乐无穷(多图)阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4我们真的需要另一种非开源的源代码可用许可证吗? | Linux 中国AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B夏婳:两情难相知(十六)5分钟搞出大模型应用!阿里云通义“全家桶”来了,从基础设施到应用平台全栈技术UP能挣钱的,开源 SpringBoot 和 Vue 的企业级项目,代码很规范!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。