Redian新闻
>
热归热,Groq离取代英伟达GPU有多远?

热归热,Groq离取代英伟达GPU有多远?

公众号新闻

来源:节选自 2024 年 Week08 业内通讯 


2024 年 4 月 20 日,即 Meta 开源 Llama 3 的隔天,初创公司 Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本,每秒可输出token输提升至800。


2024 年 2 月初创公司 Groq 展示了其 LPU 处理器对大语言模型任务提供的超高速推理的支持。彼时,Groq的 LPU 已能够实现每秒能输出 500 个 token,比英伟达的GPU快10倍,而成本仅为 GPU 的 10%。


4 月 20 日,即 Meta 开源 Llama 3 的隔天,初创公司 Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本,每秒可输出token输提升至800,引起社区热议。


Groq 为何一夜爆火?


根据 Groq 官方在 2 月发布的 Demo 演示,基于其自研的 LPU 上运行的开源模型 Mixtral 能够在 1 秒内回复包含数百个单词的事实性的、引用的答案(其中四分之三的时间用来搜索)。

据悉,Groq 模型目前可在 Mixtral 8x7B SMoE 和 Llama2 7B 上运行,每100 万 token 价格为 0.27 美元。其在Mixtral 8x7B SMoE 可以达到 480 token / S,极限情况下,用 Llama2 7B 甚至能实现 750 token / S。


图:Groq 网站示意


有网友对比了 Groq、GPT-4 和 Genimi 在简单代码调试问题上的耗时,Groq 的速度比 Gemini 快 10 倍,比 GPT-4 快 18 倍。其中:

  • Groq 耗时 0.96 秒,答案可用

  • Gemini 耗时 10.47 秒,答案质量最高

  • ChatGPT-4 耗时 17.66 秒,答案可用


LPU是什么?


参考 Groq 公开的资料, LPU(语言处理单元)是一种专为计算密集型应用设计的端到端处理单元系统,尤其适用于需要处理序列数据的应用程序,如大型语言模型(LLM)。


LPU 采用了一种商用、可扩展的张量流处理器架构,它通过独特的设计实现了在单个芯片上并行处理大量张量操作的能力。与传统 GPU 所采用的 SIMD(单指令、多数据)模型不同,LPU 架构采用更精简的方法,减少了对复杂调度硬件的需求。


这种设计优化了每个时钟周期的利用效率,确保了一致的延迟和吞吐量。LPU 在执行深度学习模型,如 Transformer 架构时,能够实现高效的数据流处理。


此外,LPU 的能源效率表现优于 GPU,因为它减少了管理多线程的开销,并避免了核心利用率不足的问题,从而提供了更多的每瓦计算量。LPU 的架构还支持将多个 TSP(张量流处理器)连接在一起,避免了 GPU 集群中常见的瓶颈问题,展现出极高的可扩展性。


随着更多 LPU 的添加,可以实现性能的线性扩展,简化了大规模 AI 模型的硬件要求,并使开发人员能够更容易地扩展其应用程序。


Groq 真的有望取代英伟达 GPU 吗?


在Groq首次发布演示Demo后,诸多大佬和从业人员就LPU能否取代GPU的话题分享了自己的看法和分析结果。

原阿里副总裁、Lepton 创始人贾扬清对比了 Groq 硬件和英伟达 H100 在运行 LLaMA 70b 模型时的成本。他发现,在同等吞吐量下,Groq 的硬件成本和能耗成本分别高达 H100 的 40 倍和 10 倍。例如,为了运行 LLaMA 70b 模型,可能需要数百张 Groq 卡,而使用英伟达 H100 则成本大幅降低。


华为的左鹏飞提出了不同的视角,他强调在讨论成本时应区分售卖价和成本价,并指出 Groq 卡的成本价可能远低于市场售价。他还提到,Groq 卡未使用高成本的 HBM,而是使用了成本较低的 SRAM,这可能影响成本效益分析。


Smol AI 的创始人 Shawn Wang 从每 token 成本的角度出发,认为 Groq 在高批量处理的假设下,其成本与定价相匹配,并且可能比基于 H100 的成本更低,显示出 Groq 在成本效益上可能具有竞争力。


表:SemiAnalysis 的 Groq 和 H100 的性价比对比


Groq 卡的 per token 成本比之 H100 如何?各方大佬觉得Groq 有希望取代 GPU 吗?AI 芯片的市场风向要走向推理了吗?英伟达股价有被 Groq 影响吗?


有分析认为,此前大模型的训练和推理工作大多基于 GPU 设计,采用 CUDA 软件技术栈。而 Groq LPU 的爆火则将市场风向将 AI 芯片的主战场由训练走向推理......



点击文末👇「阅读原文」,查看完整解读


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“职场政治”话题汇英伟达GTC解读,看懂未来3年AI格局!|预告Fully Auto,还有多远?盼了几十年的“取消公摊”,要实现还有多远?领航与挑战,英伟达GTC怎么看?因提供错误信息,ChatGPT在奥地利遭投诉;英伟达黄仁勋称AI不会完全取代人类工作丨AIGC日报英伟达发布新一代 GPU 架构;盒马 CEO 侯毅退休;苹果希望将谷歌 Gemini 引入 iPhone | 极客早知道许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存,B200 配 288GB 显存英伟达推「万亿参数」GPU,继续加速「AGI 时代」AI行业买英伟达GPU,花的钱比赚的多17倍英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业你离抑郁有多远?30题测出你的抑郁指数|免费测试为AI“降温”:直接对芯片的无水液冷技术大幅降低能耗和成本,正适配英伟达GPU终端侧生成式AI离我们还有多远?业界首次!搭载英伟达GPU,50倍性能提升!Zilliz发布Milvus 2.4向量数据库详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒我们离AGI还有多远?台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!六七十年代中国银幕帅气逼人的男演员廖有梁I remember祖屋国产C919飞机订单爆发,大规模商用还有多远?突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?关于未来,英伟达GTC24告诉了人们什么?鼓吹大麻合法与为中国发声之间的距离有多远?祖屋野心藏不住了!不满CPU统治,英伟达决定彻底重写软件开发栈!黄仁勋:为什么还要用Python?命令行都不需要!GPU开发时代将至OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期黄仁勋问答全文:关于中国市场、全球供应链、奥特曼和GroqAI风向标!除了B100,英伟达GTC还要关注什么?黄仁勋刚刚发布,英伟达最强GPU B200,首次采用Chiplet?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。