云巨头,芯片十年
来源:内容由半导体行业观察(ID:icbank)编译自geekwire,谢谢。
Annapurna Labs 联合创始人 Nafea Bshara 了解半导体并欣赏优质红酒。亚马逊杰出工程师James Hamilton(詹姆斯·汉密尔顿)热衷于改变行业的想法,并且喜欢与聪明的企业家会面。
就这样,10 年前,即 2013 年秋天,他们来到了西雅图派克市场历史悠久的 Virginia Inn 餐厅和酒吧,进行了一场最终改变亚马逊云业务进程的对话。
他们的会面以及亚马逊最终收购Annapurna Labs ,加速了这家科技巨头创建自己的处理器的计划,为其当前人工智能战略的一个关键组成部分奠定了基础。
亚马逊的定制芯片,包括用于先进人工智能的芯片,本周将成为人们关注的焦点,因为亚马逊网络服务试图在拉斯维加斯举行的re:Invent 会议上表明自己在人工智能新时代的地位。
两周前,微软宣布了自己的一对定制芯片,其中包括在 OpenAI 的帮助下设计的Maia AI Accelerator ,而在这家 ChatGPT 制造商最近陷入混乱之前。微软将其定制芯片描述为优化和最大化其云基础设施性能的最终“拼图”。
在人工智能应用中,ChatGPT 已经让亚马逊紧随其后,特别是当 OpenAI 的聊天机器人与 Alexa 语音助手的对话能力进行比较时。
正如亚马逊首席执行官安迪·贾西(Andy Jassy)所说,在人工智能的“中间层”中,亚马逊希望通过 AWS Bedrock 脱颖而出,提供对多种大型语言模型的访问。
但亚马逊战略的基础是其定制的人工智能芯片Trainium和Inferentia,用于训练和运行大型人工智能模型。
它们是大型云平台制造自己的芯片的趋势的一部分,经过优化,可以在世界各地的数据中心以更高的性能和更低的成本运行。尽管微软刚刚公开了其计划,但谷歌已经开发了多代张量处理单元,谷歌云将其用于 机器学习工作负载,据报道,谷歌正在开发 自己的基于 Arm 的芯片。
在人工智能领域,这些芯片提供了通用芯片的替代品。例如,Jassy 在 8 月份的公司季度财报电话会议上表示,AWS 客户已经接受了 Nvidia 广泛使用的 H100 GPU,作为亚马逊 EC2 P5 实例的一部分,用于深度学习和高性能计算。
“然而,迄今为止,市场上只有一种对每个人来说都是可行的选择,而且供应一直很稀缺,”贾西当时补充道。“再加上我们过去几年积累的芯片专业知识,促使我们几年前开始开发自己的定制人工智能芯片。”
亚马逊的人工智能芯片是定制芯片系列的一部分,这一系列可以追溯到十年前 Bshara 和 Hamilton 在角落摊位上的对话。
“这就是未来。”
汉密尔顿是一位广受尊敬的工程师,担任亚马逊高级副总裁,于 2010 年从微软加入这家云巨头。他于 2021年被任命为亚马逊高级领导团队成员,并继续直接向贾西汇报。
汉密尔顿最近回到弗吉尼亚旅馆接受 GeekWire 采访时表示,他最初是在认识到 Amazon S3(简单存储服务)在线服务的潜力后才被亚马逊吸引的。讽刺的是,在微软的 Bill Gates 和 Ray Ozzie 让他针对 S3 编写一个应用程序进行实验之后,他才意识到这一点。
“我在会议之前收到了这张账单——7.23 美元。我花了 7.23 美元用于计算、编写这个应用程序并测试它,”他回忆道。“它改变了我的生活。我刚刚意识到,这就是未来。”
这是云中开发人员和企业可以获得的价格和性能优势的早期迹象。但在亚马逊工作几年后,汉密尔顿意识到公司需要再次飞跃。
James Hamilton 出席 2016 年 AWS re:Invent 大会
就在 2013 年与 Bshara 会面前几周,汉密尔顿为杰夫·贝佐斯和当时的 AWS 首席执行官贾西(亚马逊称他们为“six-pager”)撰写了一篇内部论文,为 AWS 开始开发自己的定制芯片提供了理由。
“如果我们不制造芯片,我们就会失去创新的控制,”汉密尔顿回忆起当时的想法,并将此举描述为随着服务器过渡到片上系统设计,公司的下一步自然发展。
在他看来,亚马逊需要在芯片层面进行创新,以保持对其基础设施和成本的控制;避免在关键服务器组件方面依赖其他公司;通过将安全性和工作负载优化等功能直接构建到硬件中,为客户提供更多价值。
随着 Arm 处理器在移动和物联网设备中的应用量越来越大,Hamilton 相信这将带来更好的服务器处理器以及更多的研发投资。
汉密尔顿工作早起,经常在晚上在当地的酒吧和餐馆与初创公司、客户和供应商会面,了解他们的工作情况。当时,他以环游世界和在船上工作而闻名,他会在办公室和码头之间选择可以停放自行车的地方。
Bshara 于 2011 年在以色列创办了 Annapurna Labs,合作伙伴包括 Hrvoye (Billy) Bilic 和芯片设计公司 Galileo Technologies Ltd 的创始人 Avigdor Willenz。
Annapurna Labs 联合创始人 Nafea Bshara 现在是 AWS 副总裁和杰出工程师。
他是由一位共同的朋友介绍给汉密尔顿的,他们同意按照汉密尔顿的传统一起度过欢乐时光。Bshara 记得在当地的 UPS 商店打印了一系列幻灯片,然后将自己放在展位上,以免在向汉密尔顿展示时将内容透露给餐厅的其他人。
Hamilton 回忆起这家以色列初创公司所做的事情很快就给他留下了深刻的印象,他认识到其设计有可能成为亚马逊第二代主力 Nitro 服务器芯片的基础,该芯片的第一个版本是根据 Cavium 半导体的现有设计改编的公司。
Bshara 记得 Hamilton 在第一次会议上询问 Annapurna 是否可以更进一步,开发基于 Arm 的服务器处理器。Annapurna Labs联合创始人当时立场坚定:市场尚未准备好。
这表明他很现实,而不仅仅是说他认为亚马逊高级工程师想听的话。Bshara在会后发了一封电子邮件,详细说明了他当时的理由。
这是他们在 Nitro 上最初合作的火花,最终导致亚马逊在 2015 年以据称 3.5 亿美元的价格收购了 Annapurna 。亚马逊表示,目前正在使用的 Nitro 芯片已超过 2000 万个。
AWS 于 2018 年推出了由 Annapurna 开发的基于 Arm 的 CPU Graviton。当他们决定制造这款芯片时,Hamilton 提醒 Bshara 当初见面时他对 Arm 服务器的评价。
“我告诉他,你是对的,”Bshara回忆道,并解释说市场现在已经准备好了。
亚马逊的优势与挑战
Annapurna 让亚马逊在这个看似走钢丝的领域取得了早期优势。
Bshara 解释说,设计芯片“极其困难——它与软件不同”。“犯错的余地为零。因为如果你有一个错误,然后你旋转一个芯片,你就会损失九个月的时间。对于软件,如果出现错误,您可以发布新版本。在这里,你必须去打印一个新版本。”
亚马逊渴望谈论这段历史的原因之一是为了反驳人们普遍认为亚马逊因生成人工智能的兴起而措手不及的看法。这将成为本周在拉斯维加斯举行的 re:Invent 大会上反复出现的主题,AWS 首席执行官 Adam Selipsky 和团队将展示他们的最新产品和功能。
“我们绝对希望成为运行生成式人工智能的最佳场所,”负责运行 AWS EC2(弹性云计算)的亚马逊副总裁Dave Brown说道,AWS EC2 是该公司云计算平台的核心服务。“当你考虑客户想要做什么时,这是一个非常广泛的领域。”
他表示,即使不使用亚马逊的 AI 芯片,该公司的 Nitro 处理器在显着提高通常用于 AI 训练的 Nvidia 支持的 EC2 P5 实例的网络吞吐量方面也发挥着关键作用。
但定制的人工智能芯片使其能够进行更精细的控制。
“因为我们拥有 Trainium 和 Inferentia 的全部内容,所以不存在我们无法一直调试到硬件的问题,”他说。“我们能够使用定制芯片大规模构建极其稳定的系统。”
CCS Insight首席分析师James Sanders表示,由于涉及的工作负载规模巨大,定制芯片对于 AWS、Azure 和 Google Cloud 等主要云平台至关重要。
“从数据中心规划的角度来看,只要将尽可能多的 GPU 放入服务器机架中,就会开始遇到很多麻烦,”他说。“这变成了散热问题,变成了功耗问题。”
与商用芯片相比,定制芯片可以更好地优化工作负载、降低功耗并提高安全性。高耗电的 GPU 还具有一些对于 AI 工作负载来说不必要的功能。亚马逊很早就认识到了这一事实,并在定制人工智能芯片方面凭借 Trainium 和 Inferentia 占据了先机。
然而,桑德斯表示,软件方面是一个关键挑战。
Nvidia 在人工智能领域拥有强大的地位,这要归功于其用于 GPU 通用计算的软件平台 CUDA。这给了英伟达一条护城河。他说,亚马逊的障碍之一是将人工智能工作负载从 Nvidia GPU 上的 CUDA 移植到亚马逊芯片上运行。这需要开发人员付出巨大的努力以及亚马逊的推广。
Moor Insights & Strategy首席执行官兼首席分析师、AMD 前战略副总裁帕特里克·穆尔黑德 ( Patrick Moorhead)表示,如果开发人员局限于使用 CUDA 作为编程语言,那么将现有工作负载从 Nvidia GPU 上移走可能会很困难。他将这一前景描述为“一次非常沉重的提升”。
他说,亚马逊的软件抽象层和集成开发工具可以在启动新工作负载时简化这种过渡。
Annapurna 联合创始人 Bshara 表示,亚马逊认识到软件熟悉度对长期增长的重要性,该公司正在投入大量资源为其 AI 芯片构建软件工具链。
“许多客户将 Trainium 支持视为一种战略优势,”Bshara 通过电子邮件表示。“我们对客户如此迅速地接受这些芯片感到兴奋,并相信工具和支持很快将至少像他们以前使用过的任何芯片架构一样为客户所使用和熟悉。”
他表示,该公司的人工智能芯片已被 AirBnB、Snap 和 Sprinklr 等公司大规模使用,具有明显的性能和成本优势。
Anthropic 还将根据他们最近宣布的合作伙伴关系使用亚马逊的 AI 芯片,其中亚马逊将向这家初创公司投资高达 40 亿美元,作为与微软和 OpenAI 的双雄对抗。
Moorhead 表示,展望未来,亚马逊面临的最大挑战将包括,随着人工智能模型的需求持续呈指数级增长,如何利用最新的芯片架构在技术上保持领先地位;并继续大力投资研发,与 Nvidia 和 AMD 等专用芯片公司竞争。
Moorhead 表示,亚马逊在开发自己的芯片时冒了很大的风险,但它通过重置半导体行业并在主要云平台上引发新的竞争而获得了回报。“他们努力了,而且也做到了,”他说。“他们确实激励了其他人效仿。”
原文链接
https://www.geekwire.com/2023/inside-the-ai-chip-race-how-a-pivotal-happy-hour-changed-amazons-strategy-in-the-cloud/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3598期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者