Redian新闻
>
智源:70万预算从头开发千亿参数大模型,挑战成功

智源:70万预算从头开发千亿参数大模型,挑战成功

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

预算10万美元(约73万人民币),从头训练一个全新的千亿参数大模型。

智源研究院与国内多所高校及南洋理工联合团队,挑战成功。

要知道,当GPT-3的训练成本可是高达460万美元,近一些的Llama2据估算也大概是这个数。

这个用10万美元训练出的大模型名叫FLM,拥有1010亿参数量,目前已经开源。

得益于研究团队的新型训练策略,FLM只用了2.17%的花销,就达到了可以比肩GPT-3的效果,在开发社区引起不小关注。

那么,FLM团队是如何把训练成本降低近50倍的呢?

“成长策略”降低训练成本

不管是租还是买,硬件的价格都摆在那动不了,所以只能是通过减少运算量来降低成本。

为了降低训练过程中的运算量,研究团队在FLM中采用了一种“成长策略”。

也就是先训练16B参数的小规模模型,然后扩大到51B,最终再扩展到101B版本。

由于训练低参数量模型的运算效率更高,这种循序渐进的训练方式成本要低于一步登天。

看到这里也许有的读者会有疑问,其他模型不是也有分成多个参数量的版本吗?

是没错,但是这些参数量不同的同种模型是分别进行训练的,这造成了大量的重复计算,因而成本并不低。

而FLM采用的“成长策略”在训练大规模版本时会直接继承低参数量模型中已有的知识,降低了重复运算率。

而具体参数的确定,应用了loss prediction技术,即根据低参数模型的训练损失预测出高参数量模型的损失。

除了这种“由小及大”的“成长策略”之外,FLM的训练过程中还通过改善并行策略来提高吞吐量。

FLM使用的是混合并行策略,将多种并行方式进行最优化配置,达到高吞吐量,单GPU利用率超过了50%。

团队还利用序列并行和分布式优化器技术,将输入序列和优化器状态分配到不同GPU,减轻了单个GPU的计算和内存压力。

那么,这种“成长策略”训练出的FLM表现又如何呢?作者给出了Open LLM数据集的测试结果。

FLM在四个项目中取得的平均成绩接近GLM-120B和Llama-7B,但训练成本显著低于二者。

而在其中的TruthfulQA单项中,FLM的成绩甚至超过了Llama 2。

专业知识方面,16B参数的eFLM在C-eval评测中,平均成绩超过了130B参数的GLM,并接近ChatGPT。

除了这些一般的benchmark,FLM团队还提出了一项大模型“IQ测试”。

给大模型“测智商”

FLM团队提出的大模型“智商测试”重点考察模型的推理泛化能力,而非知识储备。

这项测试从如下四个维度进行了展开:

  • 符号映射:使用随机符号替换分类标签,评估模型推理和泛化能力,避免过度拟合。

  • 规则理解:检验模型能否按照给定规则进行操作,如“计数”、“字符串替换”等。

  • 模式挖掘:给出示例,让模型归纳推导出规律并应用,如“头尾添加”等。

  • 抗干扰能力:在噪声环境中提取关键信息,包括多关键信息提取、单论据追踪和双论据追踪三项内容。

其中第一、三、四项的示例如下图所示:

那么,FLM面对自家提出的测评标准,成绩到底怎么样呢?

符号映射测评中,FLM以低一个数量级的运算量在SuperGLUE数据集上取得了与GLM和GPT-3相近的成绩,在CLUE数据集上的表现更是超过了GLM。

其余三个项目的成绩也都超过了GLM,并接近GPT-3。

论文地址:
https://arxiv.org/abs/2309.03852
Hugging Face项目页:
https://huggingface.co/CofeAI/FLM-101B

「量子位智库·大模型人才沙龙」招募中

「量子位智库·大模型人才沙龙」将于9月下旬在北京中关村举办,欢迎大模型各领域玩家参与~

点击图片了解详情,企业报名可联系活动负责人王琳玉(微信:iris_wang17,请备注企业+姓名)。

沙龙观众通道后续开放,敬请期待~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯洛文尼亚 卢布尔雅那英伟达英特尔推改良版芯片重回中国市场?产业链人士称属实;阿里巴巴CEO吴泳铭:即将开源国内最大的720亿参数大模型丨AIGC日报图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%高通甩出最强芯片三件套!手机跑100亿参数大模型,PC芯片逆袭苹果英特尔桃红柳緑,球场三伏将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型10万美元+26天,一个低成本千亿参数LLM就诞生了650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源李开复发布零一万物首款340亿参数大模型Yi;摩尔线程设立AISG和MCSG战略部门丨AIGC日报小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens手机能跑百亿参数大模型,骁龙8Gen3来了,自研PC架构上线8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍她提升了你生命的價值 ——臥龍崗徜徉的啟迪从「最强2D」升维「最强3D」!智源联合清北重磅发布10亿参数Uni3D视觉大模型AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023古诗词随想(一)十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型孔子,生命的觉醒首款生成式AI移动芯片天玑9300:能跑330亿参数大模型开源大模型FLM-101B:训练成本最低的超100B参数大模型更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%免费、可商用,阿里云开源70亿参数通义千问大模型国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上手机江湖:先有挑战者才有挑战成功者树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。