整理 | 褚杏娟、核子可乐
据报道,在 AI 领域与英伟达正面竞争的高性能计算机芯片初创公司 Cerebras Systems 已经向美国证券监管机构提交了保密文件,准备在纳斯达克证交所开启自己的首轮公开募股(IPO)。
消息最先由 The Information 网站传出,其中援引一位参与决策的匿名人士的发言,称 IPO 预计将在今年晚些时候进行。
Cerebras Systems 是一家专业且颇具能力的计算机芯片生产商,成立于 2016 年,主要面向 AI 及高性能计算(HPC)类工作负载。过去一年以来,该公司曾多次登上头条新闻,声称其芯片不仅比英伟达的图形处理单元更强大,而且成本效益也更加出色。今年 4 月,Cerebras Systems 以 285 亿人民币的企业估值入选《2024·胡润全球独角兽榜》。
凭什么跟英伟达掰手腕?
英伟达已经成长为当今世界市值最高的公司,甚至一度没有“之一”,而其背后的驱动力主要是生成式 AI 热潮,而这股浪潮丝毫没有放缓的迹象。随着世界各地企业争相将强大的 AI 工具整合进自己的系统和应用程序当中,他们开始疯狂采购 GPU,并在过去一年间将英伟达的数据中心业务收入推高超 400%。
尽管有能力站在英伟达对面与其竞争的对手不多,但 Cerebras 正是其中之一。他们的旗舰产品、全新 WSE-3 处理器发布于今年 3 月,底子则是 2021 年首次亮相的前代 WSE-2 芯片组。
Cerebras 的 WSE-3 芯片被认为是英伟达强大 GPU 产品的替代。
WSE-3 采用 5 纳米制程工艺,在晶体管数量上达到了惊人的 4 万亿,比其前代芯片多出 1.4 万亿个晶体管,拥有超过 90 万个计算核心和 44 GB 的片载静态随机存取存储器。外部用户可以灵活选择 1.5TB、12TB、甚至高达 1200TB 的内存容量。
根据这家初创公司的介绍,WSE-3 的核心数量达到单张英伟达 H100 GPU 的 52 倍。这款芯片将作为数据中心设备 CS-3 的核心器件,而 CS-3 的尺寸与小型冰箱差不多。WSE-3 芯片则跟批萨饼大小相当,还配有集成的冷却与电源传输模块。
尽管在核心数量和缓存容量的增幅上并不突出,但 WSE-3 的性能表现却实现了质的飞跃。Cerebras WSE-3 据称峰值浮点运算速率可达 125 PFLOPS(PetaFLOPS,千万亿次每秒),即一天内就能够完成 Llama 700 亿参数的训练任务。Cerebras 表示,这样的规格足以让 WSE-3 与英伟达旗下最顶尖的 GPU 相匹敌。该公司解释称,其芯片性能卓越,能够以更快的速度、更低的功耗高效处理 AI 工作负载。
该款芯片预计将于今年晚些时候上市。
大模型训练:CS-3 VS B200
Cerebras CS-3 和 B200 对比
训练大型 AI 模型时,性能的首要决定因素是浮点性能。凭借 90 万个专用 AI 核心,Cerebras CS-3 采用行业标准 FP16 精度,实现了 125 PFLOPS 。而单个 Nvidia B200 GPU 是 4.4 PFLOPS,8 个 GPU 的 DGX B200 是 36 PFLOPS。”在原始性能方面,单个 CS-3 相当于 3.5 个 DGX B200 服务器,但是占用的空间更小,功耗只有原来的一半,编程模型也非常简单。”人工智能开发经常遇到内存限制的问题,OOM(内存不足)经常导致训练失败。万亿参数规模的模型只会加剧这个问题——需要 TB 级内存、数百个 GPU 和复杂的模型代码来管理内存和编排训练。为此,Cerebras 硬件没有采用 GPU 最强“辅助”HBM(High Bandwidth Memory)方式,而是采用了独特的分解内存架构,并设计了名为 MemoryX 的专用外部存储设备来存储权重。MemoryX 使用闪存和 DRAM 以及自定义软件堆栈,以最小的延迟管道加载 / 存储请求。“我们 1200TB 超大规模 SKU 专为 GPT-5 及更高版本而设计,可训练 24 万亿参数的大模型。它的内存容量比 B200 GPU 多 6,000 倍,比 DGX B200 多 700 倍,比全机架 NVL72 多 80 倍。”该公司提到。另外,CS-3 的分解式内存架构可以将数 PB 的内存连接到单个加速器,使其在处理大型模型时具有极高的硬件效率。高互连性能对于多芯片的高利用率至关重要。DGX B200 等 GPU 服务器是通过 NVLink 实现。NVLink 是一种专有互连,可在服务器内部的 8 个 GPU 之间提供专用链接。CS-3 互连系统则采用完全不同的技术构建:在晶圆上布线将数十万个内核连接在一起,以最低的功耗提供最高性能。“CS-3 为 90 万个核心提供每秒 27 PB 的总带宽,这比 1800 台 DGX B200 服务器的带宽还要高。”该公司表示。另外在上个月,Cerebras 还与桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室以及洛斯阿拉莫斯国家实验室的研究人员合作,在毫秒级速度下展示了上代 WSE-2 硬件进行原子级材料模拟时的性能表现。在相关研究论文中,该公司提到 WSE-2 的性能水平惊人,模拟速度可达到配备 3.9 万张英伟达 GPU 的便于最强超级计算机 Frontier 的 179 倍。该公司产品与战略高级副总裁 And Hock 在上个月接受采访时指出,“简单堆叠任何数量的 GPU 都不可能获得这样的结果。我们正在根本上为分子动力学研究解锁新的时间尺度。”Cerebras 是一支由先驱计算机架构师、计算机科学家、深度学习研究人员以及热爱无畏工程的各类工程师组成的团队,目前已在加拿大和日本分别设立了办事处。提到这家公司的创始团队,不得不提 2012 年被 AMD 以 3.34 亿美元收购的微型服务器公司 SeaMicro。这次收购在当年也引发了很大关注,被评“对低功耗服务器领域来说具有颠覆性意义”,因为 SeaMicro 一直在其下一代服务器中使用英特尔芯片,SeaMicro 的网络结构允许数百个低功耗处理器协同工作。SeaMicro 架构与处理器无关,这意味着它可以快速适应 AMD 的技术。而 SeaMicro 创始人 Andrew Feldman 也是如今 Cerebras 的联合创始人兼 CEO。Andrew 拥有斯坦福大学的学士学位和工商管理硕士学位。在 2007 年创立 SeaMicro 之前,Andrew 是 Force10 Networks 的产品管理、营销和业务拓展副总裁,该公司后来以 8 亿美元的价格出售给戴尔。在加入 Force10 Networks 之前,Andrew 曾担任 RiverStone Networks 的营销和企业发展副总裁。值得注意的是,Andrew 认为印度是Cerebras的优先事项,理由是该国拥有巨大的工程人才、顶尖大学和不断发展的人工智能生态系统。该公司的 CTO Gary Lauterbach 也是 SeaMicro 的联合创始人,后来也同样加入了 AMD。 Gary 是计算机架构大牛,曾担任 Sun SPARC Ⅲ和 UltraSPARC Ⅳ微处理器的首席架构师。在 Sun 实验室,他是 DARPA HPCS Petascale 计算项目的首席架构师,他本人拥有 50 多项专利。SeaMicro 微服务器领域的领先技术也离不开 Gary。在 SeaMicro 工作期间,Gary 还是美国能源部 930 万美元节能计算拨款的首席研究员。Andrew 和 Gary 两人共事已超过 12 年。另一位技术负责人 Sean Lie 也曾在 SeaMicro 公司担任 IO 虚拟化结构 ASIC 的首席硬件架构师。Sean 拥有麻省理工学院电子工程和计算机科学学士学位和硕士学位,并在计算机体系结构方面拥有 16 项专利。在 SeaMicro 被 AMD 收购后,Sean 成为 AMD 研究员和首席数据中心架构师。早期职业生涯中,他在 AMD 的高级架构团队工作了五年。Cerebras 还聘请了有超过 24 年执行领导经验的 Vinay Srinivas 担任软件工程高级副总裁,Vinay 拥有印度理工学院孟买分校的学士学位以及佛罗里达大学的硕士学位和博士学位。他曾在 Synopsys(一家美国电子设计自动化公司) 工作了 12 年,离职前担任仿真产品线的工程副总裁。早前,Vinay 还曾分别在 Archpro Design Automation 、Sequence Design 担任研发副总裁。首席运营官 Dhiraj Mallick 之前也曾担任 SeaMicro 的工程副总裁,公司被收购后他继续在 AMD 担任公司副总裁和服务器解决方案部门总经理。他拥有超过 20 年的领导经验,在加入 Cerebras 前是英特尔价值 200 亿美元的数据中心业务的首席技术官和架构副总裁。同时,Dhiraj 还担任了几家风险投资公司顾问,并拥有斯坦福大学的电气工程硕士学位。Cerebras Systems 的产品管理副总裁 Andy Hock 此前是高分辨率卫星制造商 Skybox Imaging 的高级技术总监,该公司后来被谷歌以 5 亿美元收购。收购后,他继续在谷歌担任产品经理。Andy 拥有加州大学洛杉矶分校地球物理和空间物理学博士学位,在加入 Skybox 之前是 Arete Associates 的高级项目经理、业务开发主管和高级科学家。考虑到英伟达这位竞争对手在过去一年间取得的令人瞩目的收益,Cerebras 作为少数能够与之竞争的芯片制造商之一,自然有理由受到投资者们的热烈追捧。Constellation Rsearch 公司的 Holger Mueller 表示,如果 Cerebras 真像其宣称的那样具有竞争力,完全有可能在华尔街金融市场上引发轰动。Mueller 解释道,“英伟达前阵子刚刚成为全球市值最高的上市公司。面对这泼天的富贵,竞争态势也开始快速加剧,包括不少来自传统芯片行业以外的竞争对手。Cerebras 确实有可能成为英伟达的潜在竞争对手,他们在芯片的制造和销售方面采取了差异化的发展路线,而且似乎有望吸引到足量资金以投入到这场耗资甚巨的 AI 军备竞赛当中。”截至目前,该公司已累计融资 7.2 亿美元,估值约为 42 亿 -50 亿美元。在其官网的投资者一栏中,还可以看到 OpenAI 的身影,比如 Sam Altman、Greg Brockman、Ilya Sutskever 等,其中 Altman 曾参与 Cerebras 的 8000 万美元 D 轮融资,Cerebras 在官网将其列在投资人的第一位。在 The Information 的报道中,消息人士透露称为了进一步吸引投资者,Cerebras 已经通知公司注册地特拉华州的监管机构,他们计划为即将到来的 F1 轮融资提供优先股。与上一轮融资相比,其股票发行价将有“大幅折扣”,希望借此增强上市发行的吸引力。尽管 Cerebras 本身对其 IPO 计划讳莫如深,但彭博社此前报道称,该公司已经选择花旗集团作为其上市领投银行。在与多家 IPO 咨询机构进行多次讨论后,Cerebras 最终选择了这家银行。报道还提到,该公司的目标是最早在 2024 年下半年上市,且预期市值至少应高于其 2021 年最新一轮 2.5 亿美元 F 轮融资时对应的 40 亿美元估值。消息人士还在 The Information 报道中指出,Cerebras IPO 的具体细节尚未确定,可能会根据投资者们的实际反应做出调整。https://siliconangle.com/2024/06/20/ai-chipmaker-cerebras-systems-competitor-nvidia-reportedly-files-ipo/https://www.cerebras.net/blog/cerebras-cs-3-vs-nvidia-b200-2024-ai-accelerators-comparedhttps://www.theinformation.com/articles/cerebras-an-nvidia-challenger-files-for-ipo-confidentially?offer=rtsu-engagement-24&utm_campaign=RTSU+-+Cerebras+IPO&utm_content=4480&utm_medium=email&utm_source=cio&utm_term=3006新应用时代,融合AI技术的应用开发变得更加复杂。在6月14日至15日的ArchSummit全球架构师峰会上,来自字节、百度和腾讯云等知名企业的资深架构师分享了他们如何运用AI模型及技术管理手段,解决实际问题。「AI前线」精选了大会上聚焦AI模型及其应用开发的系列PPT,关注「AI前线」,回复关键词「应用开发」免费获取。InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。