Redian新闻
>
2023炼丹GPU选购指南来了!英伟达3080和4070Ti成性价比之王!

2023炼丹GPU选购指南来了!英伟达3080和4070Ti成性价比之王!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

Alex 发自 凹非寺
转载自:量子位(QbitAI)

春暖花开,各位深度学习er想不想给自己的“丹炉”升级一波?

“炼丹”爱好者们应该知道,在该领域中,**GPU的总体表现完胜CPU。

那么GPU应该怎么选?不妨来看看这篇超级详尽的“2023版GPU选购指南”

知名测评博主、华盛顿大学在读博士Tim Dettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡,避免踩雷。

光是目录就有这么长……

至于谁是性价比之王,不卖关子,这里放上Tim哥的结论:

对于16位训练过程,RTX 3080的性价比最高;对于8位和16位推理,RTX 4070Ti的性价比最高。

有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的——Tim哥觉得,对于深度学习,“AMD GPU+ROCm”目前还打不过“NVIDIA GPU+CUDA”。

手把手教你挑GPU

Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。

蓝色-16位训练;红色-16位推理;黄色-8位推理

看到这个,你可能一脸问号:从表格来看,不是RTX 4080在8位和16位推理上的性价比更高吗?

其实,咱们开头说的是“综合性价比”——

除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX 4070Ti的性价比更高。

虽然RTX3080和RTX 4070 Ti性价比高,但这俩的内存是个明显短板

Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。

于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。

其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。

首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务——比如,是要训练语言大模型(LLM)吗、参数量有没有超过130亿?还是就做点小项目?

然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。

举个例子:

如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。

但如果预算实在有限,建议放弃……

(在亚马逊上,40GB的英伟达Tesla A100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)

另外,Tim哥还支了一招:最好用云GPU(比如Lambda云)来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer)

其实假如GPU仅偶尔使用(每隔几天用几小时),甚至都不用去买个实体的,用云GPU就可以了。

对了~如果你真的不在乎这点(?)钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。

那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?

那可以考虑二手呀!

先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。

关键性能点有哪些?

盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。

(如果你想稍微深入了解一些,请接着往下看。)

Tim哥指出,重点有四:GPU的内存、核心、Tensor Core和缓存

而其中最重要的是Tensor Core

Tensor Core是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元。其中Tensor即张量,是一种能表示所有类型数据的数据类型。

Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了Tensor Core,运算速度会变得非常快,有助于大大减少成本。

就拿一个入门级的32×32矩阵乘法来说,通过Tensor Core,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。

而且即便是超大规模的矩阵运算,Tensor Core也能轻松处理。在规模堪比GPT-3的训练中,Tensor Core的TFLOPS利用率也就约为45-65%。

而当两个GPU都有Tensor Cores时,要比较它们性能,最佳指标之一就是内存带宽

例如,A100 GPU的内存带宽为1555GB/s,而V100为900GB/s。因此,A100和V100相比,运算速度大概是后者的1555/900=1.73倍。

由此可见,内存带宽会影响到Tensor Core的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到Tensor Core的速度更快。

然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。

对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为“内存碎片”*(memory tiles)。

一部分“碎片”被加载到Tensor Core中,由寄存器直接寻址。

根据英伟达Ampere架构的规则,举个例子~

把每一个权重矩阵都切成4个“碎片”,并假设其中两个为零——于是就得到了一堆稀疏权重矩阵。

然后把这些稀疏权重矩阵与一些密集输入相乘,Tensor Core功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。

在压缩之后,密集压缩的“碎片”被送入Tensor Core,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。

Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。

如果你把这些东西吃透了话,以后就能完全靠自己配置出最合适的“炼丹炉”了。

原文传送门:
https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/

点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
留学还在盯着英美吗?欧洲性价比之王爱尔兰了解一下【Fenway 】免中介费5.1入住!下楼伯克利! Studio性价比之王!中国香港VS新加坡,到底谁才是亚洲留学性价比之王?【Fenway 】最受关注的性价比之王!超值2室1厅!法国、德国、荷兰等欧洲热门留学国家哪个才是留学性价比之王Apple Watch 选购指南:从 SE 到 Ultra,选购手表,一篇就够了丨有用功【Beta2.0】笔记本电脑选购指南品牌花费七位数办音乐节,却是营销“性价比之王”?英伟达显卡下架后换皮官宣!老黄:4080 12G拉胯,关我4070Ti什么事?Berklee首选 近NEU | 伯克利学生公寓性价比之王 | 波士顿Back Bay | 少量房源 | 2200+【排位现房解禁/高级公寓性价比之王】【NEU/BU/Berklee必看】【Fenway商业区顶级豪华公寓】在英国生病了各类药如何选?这份免费注册就医+常用药选购指南快收好!《更多的诗歌》:19: 现在,嘈杂声都已停止《山居续忆》:第二十七章:一生命运的转折点—— 回忆我当年是怎么会去美国的 (三)『湾区性价比之王』再出招,$69盆菜送到家,还送紫米榴莲/椰汁南瓜西米露/奶枣...法国香颂《我病了》(2)英伟达4070Ti 6499元起/ 微软要推出ChatGPT版Bing/ 苹果头显被曝售价3000美元... 今日更多新鲜事在此【稀有现房拼手速/高级公寓性价比之王】【NEU/BU/Berklee必看】【Fenway商业区顶级豪华公寓】聊聊我为什么迟迟不更新【选购指南】年学费$2000,成绩却超墨尔本老牌私校!澳媒盘点择校中的性价比之王【Beta版】笔记本电脑选购指南加拿大经济悲观的2023年[时尚] 国产复古篮球鞋的性价比之王-李宁䨻 RSR101智驾芯片“性价比之王”凭何抢滩增量市场?Fenway性价比之王!6-9月入住排位进行中,人均1000-1100,包水暖聊聊2023年的超级性价比之王深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?Agustín Hernández:中美洲建筑背景下的未来主义巨构芝士选购指南 | 一篇教你认清大温超市里五花八门的芝士!论欧洲留学性价比之王,还得是爱尔兰!英伟达 RTX 40 笔记本 GPU 性能爆料:4050 略强于 3060,4060 接近 3070Berklee首选 | 伯克利学生公寓性价比之王 | 波士顿市中心 | 少量房源 先到先得【2023】《敢问路在何方》「性价比之王」的美国大学是?看看你的学校有没有上榜!英伟达 AD106 GPU 跑分曝光:达到 GA104(RTX 3070 Ti)水平
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。