Redian新闻
>
Meta透露,正在多款自研芯片上使用RISC-V

Meta透露,正在多款自研芯片上使用RISC-V

公众号新闻

来源:内容由半导体行业观察(ID:icbank)综合,谢谢。


在DAC 2023上,Meta 的 ASIC 工程经理 Himanshu Sanghavi 谈到了 Meta 正在使用 RISC-V 开展的各种项目。他表示,定制指令是“我们决定采用 RISC-V 架构的关键因素”,因为 Meta 从 IP 提供商处定制 RISC-V 内核,“以加速计算、降低能耗并创建更灵活的 ASIC”。


Sanghavi 进行了更详细的介绍:“我在 Meta 的团队正在开发基于 RISC-V 的 ASIC,用于视频转码以及机器学习应用。这些 ASIC 正在我们的数据中心运行一些计算最密集的工作负载。这些是大型、高性能的设备,由多个不同的处理器、硬件加速器、内存系统、接口 IP 组成,全部位于一个芯片上。大约四年前,当我们开始这项工作时,我们评估了多种不同的处理器架构,并决定对这些 SoC 的一些关键插槽采用 RISC-V。这一选择的驱动因素是 RISC-V 是一种开放架构,并且有多个处理器 IP 提供商实现了该架构。快进到今天,Meta现在有几个可用的 ASIC,它们使用 RISC-V 处理器进行控制处理和数据处理。特别是后者确实使用自定义指令。为一些对我们的工作负载很重要的专门计算定义的自定义指令,以及在同一芯片上的处理器内核和硬件加速器之间构建自定义接口。”




Meta自研芯片计划详情




Meta 最近发布了一系列与其内部 AI 基础设施和芯片相关的公告。其中一些主题包括迁移到具有更多液体冷却、更高功率和设施级别变化的数据中心。在硅方面,有趣的是,Meta 正在采取与谷歌完全相同的策略。


Meta 只是在谈论他们已经拥有的旧芯片,就像新的东西已经准备就绪一样。例如,他们在去年使用 16,000 个 Nvidia A100 构建的研究集群上发布了整个博客,只是在他们已经开始使用 H100 构建更大的集群之后。正如我们过去报道的一样,H100 集群的基础设施设置非常奇怪。


本问将涵盖 Meta 自 2021 年以来拥有的旧芯片以及 Meta 目前正在开发的新芯片。我们将讨论架构、路线图、各种设计合作伙伴和未来的抱负。



Meta可扩展视频处理器 (MSVP)


Meta 展示了他们自 2021 年以来一直在部署的视频编码 ASIC。视频编码 ASIC 对公司来说是非常重要的基础设施。例如,这是亚马逊不得不通过 Twitch 提供比谷歌的 YouTube 差得多的直播服务的主要原因。


谷歌是第一个设计视频编码芯片的公司,代号为 Argos,我们在多年前就介绍过了Google的布局。大规模部署的谷歌 Argos VPU 完成了超过 1000 万个英特尔 CPU 的 VP9 编码工作.,这为谷歌节省了数十亿美元的成本。我们 We have 还介绍了 NetInt 的 VCU,这是一家拥有类似视频编码 ASIC 的初创公司,他们设计的产品正在出售给字节跳动、百度、腾讯和阿里巴巴等公司。


Meta 有大量视频上传到 Instagram 和 Facebook,因此该产品对于降低成本至关重要。此外,第二M代ndMeta 的可扩展视频处理器使他们能够如此普遍地在卷轴中部署 AV1。注意 Meta今天只公开了第一代。



Meta 声称该芯片是内部开发的,但事实并非如此。宣布的 MSVP 和即将推出的下一代版本都是与 Broadcom 共同设计的。Google 的前两代视频编码 ASIC 也是与 Broadcom 共同设计的。


每个 MSVP ASIC 芯片都拥有 4K 的最大转码能力,在最高质量设置下以 15fps 的速度运行,配置为一个输入流到五个输出流。它能够在标准质量配置下以 60fps 的速度扩展到 4K。Meta 声称性能随着分辨率的增加而统一。所有这些都是通过 PCIe 模块大约 10W 的功率使用来实现的。H.264 性能提升 9 倍,VP9 性能提升 50 倍。



该芯片采用 M.2 22110 格式,支持 4 条 PCIe Gen 4 通道,即 8GB/s。展示的主板中还有 2 个 4GB 的 Micron LPDDR5,总共 8GB,内存带宽为 88GB/s。封装约为 24mm x 19mm,芯片尺寸约为 112mm^2。




Meta训练和推理加速器 (MTIA)


人工智能是Meta 数据中心中最重要、成本最高的工作负载。Meta 至少从 2019 年就开始开发他们的 AI 芯片。第一代刚刚发布,虽然处理器类别被命名为 Meta Training 和 Inference Accelerator,但需要明确的是,第一代仅可用于推理。


Meta 的主要工作负载是当今的推理DLRM inference,因此,他们尝试构建他们的芯片,尤其是针对该工作负载。提醒一下,DLRM 模型仍然是最大的大规模 AI 工作负载。这些 DLRM 是百度、Meta、字节跳动、Netflix 和谷歌等公司的支柱。它是广告、搜索排名、社交媒体订阅等方面年收入超过一万亿美元的引擎。


虽然生成式人工智能很快就会在硬件需求方面超过它,但这种转变还没有完全发生。



DLRM 模型正在持续增长,这导致 Meta 的基础架构发生重大变化。有一段时间,他们大量使用英特尔的 NNP-I 推理加速器,但很快就让位给了 GPU。在某些方面,第一代 MTIA 可以被认为是第二代 NNP-I,因为系统架构(不是 uarch)非常相似。



Meta 多年前就推出了他们的半定制 AI 加速器项目,他们的目标非常明确。更好的 DLRM 模型和易用性的推理成本更低。他们的第一代可以被认为是一种软件工具,用于开发利用 PyTorch 2.0 的急切模式和全图模式与 LLVM 编译器的能力。他们正在致力于实施 Dynamo、Inductor 和 Triton。



我们的数据显示,Meta 是今年 Nvidia H100 GPU 的最大个人买家。这不是巧合。Meta 需要 GPU 来进行训练和推理,而在大多数情况下,H100 是满足这种需求的最具成本效益的方式。



Meta 分享了他们各种生产推荐模型的概况。这些模型具有不同的大小和复杂性。Meta 还分享了各种硬件在这些工作负载中的性能。



虽然 Meta 没有分享他们比较的 GPU,但我们四处询问,似乎是旧的 Ampere GPU,而不是新的 Hopper 和 Lovelace GPU。虽然这看起来不公平,但请记住 Meta 的第一代stMTIA 也是一款较旧的芯片。一旦您叠加了新的 Nvidia 芯片的额外性能,第一代 MTIA 在每瓦性能方面失去了大部分工作负载。


话虽如此,第一代 MTIA 只是一个开始。


Meta 在 2021 年获得了视频中的芯片。MTIA 在台积电的 7nm 晶圆厂制造,并由 Amkor 封装。芯片标记表明这发生在 2021 年 8 月 23 日至8 月 29日。



该芯片具有 102.4 TOPS 的 INT8 和 51.2 TFLOPS 的 FP16 以及 25W TDP。共有 128 MB SRAM,运行速度为 800GB/s。该 SRAM 位于内存控制器旁边,可以充当直接寻址为可寻址内存的内存端缓存。在以 176GB/s 运行的 256 位总线上还有高达 128GB 的 LPDDR5-5500。值得注意的是,Meta 使用了能够达到 6400 MT 的 LPDDR5,但以降频运行。还有 8 个 PCIe 4.0 通道。



内存和 IO 位于处理元件周围。这些处理元素是一个 8 x 8 的网格,其中包含一个命令处理器、本地内存和两个不同的 RISC-V CPU。一个内核只有标量能力,而另一个内核既可以标量也可以矢量。这些内核是从第三方 IP 机构获得许可的。该第三方不协助后端。



还有各种固定加速器来加速矩阵乘法、非线性函数和数据移动。


实际上,该芯片位于 Delta Lake 服务器中的 PCIe Gen 4x8 双 m.2 卡上,连接到 Intel Copper Lake CPU,具有 96GB DDR4 和 PCIe 3.0 x24 连接到嵌套交换机(80 通道 Broadcom PCIe4 交换机)。


每台主机有12x MTIA,整个系统功耗780W。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3470期内容,欢迎关注。

推荐阅读


三雄并立的MCU市场

谷歌芯片,正在经历苹果时刻?

半导体TOP10:模拟进,存储出!


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“中国芯”接力:哲库之后,自研芯片寻找新突破口在IPU上使用Graphium进行多任务分子建模《那就是我》AMD透露,AI芯片暴涨7倍vivo首款自研6nm芯片!AIGC算法加持,支持4K电影级人像视频星纪魅族被曝裁撤所有应届生,将终止自研芯片;万达多人突然被带走,包括一高级副总裁;北大最新研究称LK-99不是超导体丨雷峰早报五问vivo造芯:手机厂商自研芯片,还能做多久?喜欢在乡下生活打通数字验证全流程,芯华章发布首款自研等价性验证工具对话荣耀赵明:根据需求定制自研芯片战略,对大模型将“慎之又慎”三星自研芯片回归?三星Galaxy S24系列电池容量曝光谷歌自研芯片秘辛首次曝光荣耀赵明谈自研芯片OpenAI聘用华人高管带领ChatGPT产品团队;荣耀回应新设公司自研芯片传言;Meta或取消远程办公 | AI一周资讯智讯|特斯拉第 500 万辆整车下线;蔚来正在布局自研芯片;比亚迪仰望 U8 全系标配应急浮水能力苹果将在iPhone芯片上省数十亿美元/英伟达推出AI超级芯片/万达回应副总裁被带走调查BB鸭 | 华为手机销量暴涨58%;Space X涉嫌擅自排放污物;三星开发智能戒指;vivo X100首发自研芯片V3月潜,愿意聊聊吗?谷歌自研芯片,当头一棒!海思蛰伏、哲库退场,国产手机自研芯片梦,谁来继续扛?这个世界上就有一些心眼儿特别不好的人!BB鸭 | 小米称会坚持投入自研芯片;暴雪起诉网易侵权;迪士尼门票再涨价;布加迪威龙推出住宅项目5077 血壮山河之武汉会战 黄广战役 9艺画开天入局游戏,首款自研游戏曝光,还要上主机,不是《灵笼》?小米重申,自研芯片的决心不动摇揭秘Meta自研XR芯片往事:分手三星牵手高通,研发团队巨震王健林下狠手,万达副总裁涉贪腐被带走;吉利旗下星纪魅族或放弃自研芯片;Arm计划9月IPO;今年出生人口或低于900万...自研芯片失败启示录苹果下一颗自研芯片,会是它吗?在IPU上使用BART Large进行文本摘要宇宙人(1291期)我国率先应用!7月1日起,正式施行;日本自卫队开始使用星链服务;中国移动正式发布两颗自研通信芯片英伟达发布新一代超级芯片平台/苹果能在芯片上省数十亿美元/华为系统云翻新功能上线四年四颗自研芯,从影像到性能,vivo突围底层技术打破体验天花板Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调苹果全新iPhone首发3nm自研芯片,结果“华为发布会”冲上热搜第一…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。