Redian新闻
>
黄仁勋:新的H200芯片我就做了两件事,就让你们疯狂

黄仁勋:新的H200芯片我就做了两件事,就让你们疯狂

科技

事实上,当英伟达在11月13日宣布推出H200张量核心GPU的时候,并没有让人感到很意外。

毕竟8月30日,英伟达就发布了旗下GH200 Grace Hopper将要搭载HBM3e的消息,目的就是为了下一个张量核心的GPU产品在性能有着绝对的优势。但是当黄仁勋站在台上,大声念着屏幕上H200的详细参数时,除了夸张,就只剩下夸张。
简单过一下参数,H200的显存是141GB,带宽是每秒4.8TB。因为此次推出的是SXM版本,也就是带一个高带宽插座版本。所以对比H100的SXM版本,显存从80GB提升76%,带宽从每秒3.35TB提升了43%。但这不是最主要的,无论是H100还是H200,它都是专注于人工智能复杂计算的,所以在业务方面,Llama2 700亿参数的模型推理速度提高了90%,GPT-3 1750亿参数的推理速度提高了60%。
这就让人不禁好奇,因为从浮点计算能力来说,那肯定是数字越大越厉害。但是从面板来看,同样为SXM版本的H100和H200,无论是FP64还是其他精度,两者皆是完全相同的。要知道H100的单PCIe版本整个浮点精度都要比SXM版本低,因此它的带宽只有每秒2TB,上文提到H100的SXM可是有每秒3.35TB,浮点精度之间的差距会带来性能差异,那精度相同的两张卡,咋就也产生差异了?
左为H200,右为H100


内功叫做HBM3e

这就好像武侠里面那老头,看起来手无缚鸡之力,一出手直接能打翻成年壮汉,这便是“内力”。H200这次采用的是和H100相同的hopper架构,最大的区别是搭载了上文已经提到过的HBM3e。先拆分一下这几个英文字母,HBM全称为高带宽内存,是一种利用三维同步动态随机存取技术(SDRAM)构建的内存接口,指的是利用垂直概念来扩展内存同时大幅度增加堆栈内处理速度。说白了就是过去内存里面大家都是一字长蛇阵排开,第一个处理完业务才能让下一个进来,没利用到空间,只是利用到平面。而到了HBM这里,设立了多窗口服务,只不过是垂直于地面建立的,排队速度更快。
另一方面,动态随机访问存储器,也就是常说的DRAM和SDRAM相比,SDRAM是在DRAM的架构基础上增加同步和双区域(Dual Bank)的功能,使得微处理器能与SDRAM的时钟同步,所以SDRAM执行命令和传输资料时相较于DRAM可以节省更多时间。排队窗口增加了,排队速度也加快了,因此整体效率自然而然升高了。最后到了3e,3就是第三代架构,e就是第三代架构的威力加强版,和游戏里DLC差不多一个概念。
英伟达H100采用的是SK海力士在2022年6月生产的HBM3(PCIe版H100用的是HBM2e,这里补充说明一下),这款内存产品堆栈内存带宽是每秒819GB。HBM3e,则是对HBM3在同一架构下,对用料、逻辑、算法的升级,内存带宽足足提升了25%,来到每秒1TB。那么回到一开始提出的问题,Llama2模型的运行大抵都遵守每10亿参数耗费3到5GB内存的原则,不过这个是会随版本更新、算法优化而变少的,毕竟开发者也为了防止内存溢出,进而发生不可预估的错误。等于说是,内存越大运行效率越快。
不过这才提升了25%啊!别急,英伟达的狠活还在后面。都说内练一口气,可别忘了,还要外练筋骨皮。H200和H100都是采用Hopper架构这个不假,然而英伟达为前者其进行了“武装”——TensorRT-LLM。英伟达TensorRT-LLM是由TensorRT深度学习编译器组成,包括优化的内核、预处理和后处理步骤以及多GPU/多节点通信原语。


外功叫做TensorRT-LLM

TensorRT-LLM的工作原理类似于“高斯求和”的故事,别的小朋友还在算等差数列依次相加的时候,高斯直接掏出一个公式很快算出了结果。TensorRT-LLM就相当于是这么一个公式,以软件优化的方式帮助GPU快速解决复杂计算。以H100为例,使用TensorRT-LLM后的H100,在对一些媒体网站进行文章摘要时的工作效率,比使用前快出整整1倍。而在700亿参数的Llama2上,前者比后者快77%。这个东西英伟达没敢在H100上大肆宣扬,直至今年8月时才拿出来大晒。
事实上英伟达耍了一个花招,在官网对比上,H200 SXM对比的是没有使用TensorRT-LLM的H100 SXM,当然这是后话,毕竟本身TensorRT-LLM也不是为H100准备的。综上,内功上英伟达有了HBM3e,外功上有了TensorRT-LLM,因此在没有计算精度变化的前提下,才能在性能上高出上代产品那么多。
2023年年初的时候,英伟达收盘在140多块左右,发布完了H200,截止至写稿,收盘在489块,距离年初涨了230%。行了,老黄这回算彻底疯狂了,我要是他估计我比他还狂呢。可我说停停,今年6月的时候一位英伟达一直以来的死对头,黄仁勋大舅罗伯沐的孙女,也就是黄仁勋的表外甥女苏姿丰站了出来。她拿出了一块AMD用来挑战H200地位的GPU——MI300X。
苏姿丰与MI300X
别看MI300X依然使用HBM3内存,但是AMD来了一招“加量不加价”,MI300X的内存达到了191GB,比H200还足足高了35%。191GB放在GPU里是个怎么回事?H100有一个版本叫做H100 NVL,这个版本非常简单粗暴,它是用两个PCIe版本的H100直接焊在一起,产生1+1>2的效果,这也才让内存来到188GB,MI300X单单一块就是191GB。然而大也有大的不好,MI300X额定功率是750W,比H200多了50W。功率和内存不一样,是反着来的,它是越小越好,越低的额定功率代表设备的维护成本越低,越耐用。一般来说,人工智能实验室不会只使用一块GPU产品,他们大多都是复数购买,每块MI300X都比H200多50W额定功率的话,最后很可能聚沙成塔,导致失去竞争力。
对于英伟达来说还有一个头疼的问题,中国几家互联网巨头一直是A100和H100的忠实客户,不过美国随后很快就禁止了向中国销售这两块GPU产品。雪上加霜的是,随着美国在2023年10月发布的禁令,A100和H100的中国定制版A800和H800,也要在11月17日以后禁止向中国销售了。从财报上来看,英伟达数据中心大约25%的收入是来自于中国,H200不出意外的话应该很快就会被列为禁止向中国出售的产品之一。
点击关注,精彩不错过↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
当着黄仁勋的面,微软一口气发布两款自研芯片,英伟达止步十连涨;滴滴杀入大模型,聚焦ToB商旅;零一万物回应架构争议丨AI周报黄仁勋,挖来Meta一员AI芯片大将印度买了16000颗H100和GH200芯片英伟达跌落神坛?黄仁勋:押注印度,对冲中国风险英伟达发布最强AI芯片H200,性能狂飙/苹果将叫停摇一摇跳转广告/GPT-5 正在开发中囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%黄仁勋:创办英伟达比我预想的要困难一百万倍|中企荐读黄仁勋看衰美国芯片制造:脱离中国供应链至少还需一二十年阿里巴巴将派发约25亿美元年度股息;黄仁勋:将为中国市场提供符合美国规定的新产品;小鹏汽车:大众完成超50亿元投资...微信刷掌、华为Mate60 Pro、苹果Apple Vision Pro、英伟达GH200超级芯片获金字招牌创新典范奖四喜烤麸—全素营养美味的家常菜李佳琦曾质疑花西子:你们疯了吗英伟达黄仁勋:优先向日本供应GPUChatGPT 周活跃用户突破 1 亿;美团辟谣停止向 45 岁以上骑手派单;黄仁勋:希望自己的传记片由成龙主演 | 极客早知道最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100英伟达H200突然发布!最强AI芯片!容量翻倍,带宽狂飙!安省女子在超市愤怒抱怨:这些食品价格太离谱!网友们疯狂点赞!出口管制后果出现?黄仁勋:中国至少有50家公司在研究与英伟达竞争的技术从H20到H200,国产算力差在哪儿?三星Exynos 2400芯片GPU跑分曝光,略低于骁龙8Gen2越南最近这两件事,做得很有一套Powder Valley自然保护区英伟达黄仁勋:华为是非常强大的竞争对手黄仁勋:企业家的超能力就是不知道有多难黄仁勋:如果能回到30岁,我不会创立英伟达兵败如山倒系列:我们惨败于推娃大妈16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达“合体”了:推出云AI超级计算机英伟达黄仁勋:领先中国芯片公司10年老黄深夜炸场,世界最强AI芯片H200震撼发布!性能飙升90%,Llama 2推理速度翻倍,大批超算中心来袭头脑正常的人绝不会创业!英伟达CEO黄仁勋:如果能够重来,宁愿放弃创办公司再不努力,就让你开奔驰宝马红色日记 计划盖房 4.1-30囤 H100 的都成了大冤种!英伟达发布最新 AI 芯片 H200:性能提升 2 倍,成本下降 50%第七章第四节 宗教旧文化在欧洲的衰落微软发布自研芯片,英伟达黄仁勋为何站台?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。