Redian新闻
>
用BT下载的方式在家跑千亿大模型,推理/微调速度10倍提升

用BT下载的方式在家跑千亿大模型,推理/微调速度10倍提升

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

在家用消费级GPU就能跑1760亿参数大模型,推理微调都很快。

还是用BT下载的方式实现。

这事儿可把AI爱好者们新鲜坏了。

这不,这个名为PETALS的项目刚开源没多久,GitHub标星数就达到了1.3k。

老司机们都知道,BT下载这玩意儿,下载同一个文件的人越多,这个文件的下载速度就越快,因为每个下载用户都会成为一个“资源节点”,互通有无。

PETALS道理差不多,就是把大家伙的GPU都利用起来,协同推理/微调同一个大模型。

用上它,你的GPU实际上只需要加载大模型的一小部分,就能把模型跑起来,速度还嘎嘎快:

推理速度能达到1秒/token,比offloading的方式快10倍。

offloading是通过提高GPU利用率,加速模型训练的一种方法,

什么是PETALS

具体来说,PETALS来自BigScience这个科研合作项目。此前人人皆可用的1760亿参数开源大模型BLOOM也来自于该项目。

至于PETALS具体是怎么个用法,先来看看下面这个例子:

张三想基于BLOOM搞个懂法语的语言大模型,而李四则想微调BLOOM让它学会C++编程。

尽管任务不同,但两者涉及的一些步骤却是共通的。

此时包括张三李四在内的PETALS用户们,自个儿的GPU里已分别加载好了模型的一部分(子集)

于是,张三和李四就可以通过网络寻求其他用户的帮助,利用别人已经拥有的模型子集,在最短时间内对BLOOM进行微调。同时,他们GPU上的模型资源也会被其他用户利用。

实际的操作过程中,PETALS的每个参与者,都会通过本地设备运行一个服务器/客户端,或者两者兼具。

服务器包含模型层子集,通常是Transformer块。同时,服务器会处理来自客户端的请求。

客户端则会形成以流水线形式并行的一连串服务器,来运行整个模型的推理/微调。

值得一提的是,微调后的子模型可以在模型中心共享,继续提供给其他人使用。

此外,为了提高分布式推理的性能,开发人员们还采取了以下策略:

  • 动态量化,使每个GPU存储更多参数,减少连续设备和通信回合的数量;

  • 优先考虑低延迟连接,即每个客户端优先考虑距离近的服务器;

  • 服务器之间的负载均衡。

在这些优化措施的基础之上,研究人员证明,千亿参数级别的模型可以基于PETALS有效运行。

对了,如果你感兴趣,还可以直接在官方提供的Colab链接上试玩一下,地址文末奉上~

关于BigScience

前文说到,PETALS是BigScience项目的一部分。

BigScience是一个开放科学合作计划,旨在打破科技巨头对AI资源的垄断。

此前,在HuggingFace、法国国家大型计算中心等机构的牵头之下,BigScience汇聚来自60个国家和250多个机构的1000多名研究人员,一起搞出了“人人可用”、从代码到数据集通通开源的BLOOM语言大模型。

BLOOM有1760亿参数,支持59种语言,是目前最大的多语种开源语言模型。

目前,PETALS主要支持的就是BLOOM。不过开发人员表示,未来还将支持更多基础模型。

Colab地址:
https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing

参考链接:
[1]https://github.com/bigscience-workshop/petals
[2]https://news.ycombinator.com/item?id=34215665

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级又一家跑路了……神经渲染与AI生成框架结合,5倍提升游戏速度,英伟达是这样做的歌曲里的故事-此情可待不要think step by step!谷歌最新自然语言推理算法LAMBADA:「反向链推理」才是答案订单总值超6100万美元,毛利率达70%!这家数字疗法公司如何利用B2B实现高增长、高利润?同样的“数学事件”,却有着不同的命运阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源MBTA取消全线速度限制!但绿线区域仍然限速,速度慢得惊人!关键时刻可以吃的无人机,米饼当机翼,速度10米每秒Firefox 启用 “新架构”,速度成倍提升斯坦福CS224W《图机器学习》2023课程开始了!Jure Leskovec大牛主讲,附课程PPT下载暗黑势力又做挣扎。。。。一百万人下载的茅台APP,真能让我原价买到茅台么?有了Fine-tune-CoT方法,小模型也能做推理,完美逆袭大模型初一调速,初二稳住,初三猛冲!(附7-9年级孩子心理特征及教育方法)​19岁女大学生诈骗伯灵顿珠宝店50万美元 买特斯拉、LV商品和夏威夷之旅!MBTA提升“全球速度限制”物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学Btrfs性能得到优化,最高提升10倍推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA全方位分析大模型参数高效微调,清华研究登Nature子刊【活动】即日起至3月20日,“随申行”赠送50000张免费骑行卡!获取方式在此→AI医学平台提高医药科研速度100%,「白星花AI」获数百万元天使轮融资|早起看早期狂揽两千星,速度百倍提升,高性能Python编译器Codon开源延安整风是中共普及教育的开始红楼梦中荣国府的“荣”字秘密刚用PPT排版,我的方案就中标了!(附PPT下载)腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型飞桨 - 鹏城云脑发行版发布:深度适配文心大模型,提升“AI+ 科研”应用体验 | InfoQ 快讯NeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源GitHub裁员10%,办公室全关,全体远程办公;微软必应集成ChatGPT下载量猛增10倍;谷歌出师不利市值蒸发超万亿|Q资讯完美逆袭大模型!有了Fine-tune-CoT方法,小模型也能做推理CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!AIGC独角兽官宣联手,支持千亿大模型的云实例发布,“云计算春晚”比世界杯还热闹
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。