英伟达在2023年GTC上的演讲全文纪要

2023-03-23 02:03

一、开场

近四十年来，摩尔定律一直是引领计算机行业动态发展的重要规律。计算机行业的发展又影响着各行各业的发展。然而，在成本和功耗不变的情况下，性能的指数级增长已经放缓。但是，计算技术的发展日新月异。曲速引擎是加速计算，动力来源就是AI。各行各业正在应对可持续发展、生成式AI和数字化等强大的动态挑战。因此加速计算和AI的到来恰逢其时。

如果没有摩尔定律，随着计算量的激增，数据中心的能耗会飙升，企业将难以实现净零排放。生成式AI的非凡能力使得企业产生了紧迫感，他们需要重新构思他们的产品和商业模式。产业内各企业正在竞相实现数字化转型，成为软件驱动的科技公司，要成为颠覆者而不是被颠覆者。

今天，我们将讨论加速计算和AI如何成为强大的工具，帮人们应对这些挑战和把握未来的巨大机遇。我们将分享NVIDIA的数据中心级全栈加速计算平台的新进展，展示新的芯片和系统、加速库、云服务、AI服务以及助力我们拓展新市场的合作伙伴关系。欢迎来到GTC大会！

GTC是一场非常重要的面向开发者的全球盛会，它涵盖了400万开发者、4万家公司和1.4万家初创公司。GTC大会的发展令人难以置信，仅在四年前，其线下大会只有8000名与会者，而在2023年，将有超过25万人参加此次大会。

GTC大会将邀请来自学术界和全球大型行业的精英进行650场精彩演讲，包括70多场与生成式AI相关的演讲，以及其他精彩演讲，如适用于机器人开发的预训练多任务模型、推进AI发展的重要方法等等。

此外，GTC大会还涉及到诸多关键议题，如值得信赖的AI和AV安全、微芯片的计算光刻技术、制造最小的机器、将AI应用在大型强子对撞机中以解释宇宙等议题。此外，大会还汇集了全球最重要的公司和企业，包括汽车和交通运输业、医疗健康业、制造业、金融服务业、零售业、服装业、媒体和娱乐业、电信业以及全球顶尖的AI公司。

GTC大会的宗旨是激励全世界，告诉大家，加速计算是可以实践的，并为科学家和研究人员通过利用该技术取得的成就喝彩。

⚫我是一名翻译，将文本转化为创造性发现，将动作转化为动画，将指令转化为行动。

⚫我是一名治疗师，探索让人类与众不同的组成基础，在新威胁发生之前进行建模，并寻找治疗方法以防止入侵。

⚫我是一名梦想家，致力创造新的医学奇迹，让人们以全新视角了解太阳，确保我们在地球上安全无虞。

⚫我是一名导航者，在海量内容中探索独特片刻，为一个个故事打造理想的背景。

⚫我是一名创造者，通过快照构建3D体验，并将虚拟自我提升至更高的现实水平。

⚫我是一名好帮手，将头脑风暴变为现实，分享100万程序员的智慧，并将想法转化为虚拟世界，“建造北方森林”。

⚫我还帮助编写了这支短片的脚本，给文字注入生命，并为其谱写旋律。

⚫我是AI，NVIDIA、深度学习以及无所不在的人类智慧将我融入每个人的生活。

二、加速库

NVIDIA率先推出加速计算，着力解决普通计算机无法解决的问题。加速计算并非易事，它需要从芯片、系统、网络、加速库到重构应用的全栈发明。从图形、成像、粒子或流体动力学、量子物理学到数据处理和机器学习，每个经过优化的堆栈都会加速对应应用领域。

加速后，应用可以获得令人难以置信的速度，还可以扩展到许多台计算机。在过去十年中，加速和纵向扩展的结合使我们能够为许多应用实现百万倍的性能提升，进而有助于解决以前无法解决的问题。虽然存在很多示例，但最著名的一个是深度学习。

2012年，Alex Kerchevsky、Ilya Suskever和Geoff Hinton需要一台速度超快的计算机来训练AlexNet计算机视觉模型。研究人员在GeForce GTX 580上使用1400万张图像训练了AlexNet，可处理262千万亿次浮点运算。经过训练的模型以压倒性优势赢得了ImageNet挑战赛，并触发了AI的大爆炸。

下面，我来重点介绍一些可以解决新挑战、开辟新市场的加速库：

1)CFD

汽车和航空航天行业使用CFD进行湍流和空气动力学仿真。电子行业使用CFD进行热管理设计。这是Cadence的幻灯片，展示了由CUDA加速的新CFD求解器。在同等系统成本下，NVIDIA A100的吞吐量是CPU服务器的9倍。或者，在同等仿真吞吐量下，NVIDIA的成本降低了9倍，能耗降低了17倍。Ansys、Siemens、Cadence和其他先进的CFD求解器现已采用CUDA加速。在全球范围内，工业CAE每年使用近1000亿CPU核心小时。加速计算是减少功耗、实现可持续发展和净零排放的最好方式。NVIDIA正在与全球量子计算研究社区合作。NVIDIA Quantum平台由库和系统组成，可供研究人员推进量子编程模型。

2)CuQuantum

cuQuantum是用于量子电路仿真的加速库。IBM Qiskit、Google Cirq、百度量易伏、QMWare、QuEra、Xanadu Pennylane、Agnostiq和AWS Bracket已将cuQuantum集成到他们的仿真框架中。

Open Quantum CUDA是我们的混合GPU-Quantum编程模型。IonQ、ORCA Computing、Atom、QuEra、Oxford Quantum Circuits、IQM、Pasqal、Quantum Brilliance、Quantinuum、Rigetti、Xanadu和Anyon已经集成Open Quantum CUDA。要从量子噪声和退相干中恢复数据，需要对大量量子比特进行纠错。

今天，我们宣布推出一个量子控制链路，这是与Quantum Machines合作开发的。它可将NVIDIA GPU连接到量子计算机，以极快的速度进行纠错。虽然商用量子计算机还有十到二十年的时间才能实现，但我们很高兴能通过NVIDIA Quantum为这个充满活力的大型研究社区提供支持。

3)Spark-RAPIDS

全球企业使用Apache Spark处理数据湖和仓库、SQL查询、图分析和推荐系统。Spark-RAPIDS是NVIDIA加速的Apache Spark数据处理引擎。数据处理是全球5000亿美元云计算支出的主要工作负载。现在，Spark-RAPIDS可加速主要云数据处理平台，包括GCP Dataproc、Amazon EMR、Databricks和Cloudera。

向量数据库的一个新型重要用例是大型语言模型，在文本生成过程中可用于检索领域特定事实或专有事实。我们将推出一个新的库，即RAFT，用于加速索引、数据加载和近邻检索。我们正在将RAFT的加速引入到Meta的开源FAISS AI相似性搜索，超过1000家组织使用的Milvus开源向量数据库以及Docker镜像下载次数超过40亿次的Redis。

对于构建专有大型语言模型的组织而言，向量数据库至关重要。22年前，运筹学研究科学家Li和Lim发布了一系列具有挑战性的拣取和配送问题(PDP)。PDP出现在制造、运输、零售和物流，甚至救灾领域。PDP是旅行商问题的泛化，同时也是NP-hard问题。这意味着不存在有效算法来找到精确解。随着问题规模的增加，求解时间会呈阶乘增长。

4)cuOpt

NVIDIA cuOpt使用进化算法和加速计算每秒分析300亿次动作，打破了世界纪录，并为Li和Lim的挑战找到了合适的解决方案。

AT&T定期派遣3万名技术人员为700个地理区域的1300万客户提供服务。如今，如果在CPU上运行，AT&T的调度优化需要一整夜的时间。AT&T希望找到一个实时调度解决方案，能不断优化紧急客户需求和整体客户满意度，同时能针对延误和出现的新事件进行调整。借助cuOpt，AT&T可以将查找解决方案的速度加快100倍，并实时更新其调度方案。

AT&T已采用全套NVIDIA AI库。除了Spark-RAPIDS和cuOPT之外，他们还将Riva用于对话式AI，并将Omniverse用于数字人。AT&T正在利用NVIDIA加速计算和AI来实现高可持续性、成本节约和新的服务。

cuOpt还可以优化物流服务，每年有4000亿个包裹被投递到3770亿个站点。德勤、Capgemini、Softserve、埃森哲和Quantiphi正在使用NVIDIA cuOpt来帮助客户优化运营。

NVIDIA的推理平台由三个软件SDK组成。NVIDIA TensorRT用于推理运行时针对指定GPU进行性能优化。NVIDIA Triton用于数据中心的推理服务，支持多种深度学习框架，支持GPU和CPU。TensorRT和Triton已有4万余客户其中包括Microsoft Office和Teams、Amazon、美国运通和美国邮政署、Uber使用Triton每秒为数十万车辆预测到达时间。Roblox拥有超6000万的日活用户，它使用Triton来部署包括游戏推荐构建虚拟形象、审核内容和市场广告的模型。

5)NVIDIA Triton Management Service

支持集成模型的模型分析器、并发多模型服务，适用于GPT-3大语言模型的多GPU、多节点推理NVIDIA Triton Management Service是我们的新软件，可在整个数据中心自动扩展和编排Triton推理实例。Triton Management Service将帮助您提高部署模型的吞吐量和成本效率。50%-80%的云视频管线运行在CPU上，这增加了功耗和成本，并增加了延迟。

6)CV-CUDA和VPF

用于计算机视觉的CV-CUDA和用于视频处理的VPF是新的云规模加速库。CV-CUDA包括30个计算机视觉算子，可用于检测、分割和分类。VPF是一个Python视频编解码加速库。腾讯使用CV-CUDA和VPF每天处理30万个视频，Microsoft使用CV-CUDA和VPF来处理视觉搜索，超级酷的Runway公司使用CV-CUDA和VPF为其云生成式AI视频编辑服务处理视频。视频已经占据了80%的互联网流量。用户生成的视频内容正在显著增长，并消耗大量能源。我们应该加速所有视频处理服务并减少能源消耗。CV-CUDA和VPF处于抢先体验阶段。

7)NVIDIA Parabricks

NVIDIA加速计算帮助基因组学实现了里程碑式发展。现在医生可以在同一次就诊中抽取患者的血液，并对其DNA进行测序。另一个里程碑是，使用NVIDIA助力的仪器设备，将整个基因组测序的成本降低至仅需100美元。基因组学是合成生物学的重要工具，从药物研发、农业到能源生产，其应用范围非常广泛。NVIDIA Parabricks是一套AI加速库，可用于云端或仪器设备内的端到端基因组分析。NVIDIA Parabricks适用于各种公有云和基因组学平台(例如Terra、DNAnexus和FormBio)。今天，我们宣布推出Parabricks 4.1，并将会在PacBio、Oxford Nanopore、Ultima Singular、BioNano和Nanostring的第四代NVIDIA加速基因组学设备上运行。

全球价值2500亿美元的医疗设备市场正在发生变革。医疗设备将由软件定义，并且由AI进行赋能。NVIDIA Holoscan是一个适用于实时传感器处理系统的软件库。超过75家公司正在通过Holoscan开发医疗设备。今天我们宣布，全球医疗设备行业领导者Medtronic将与NVIDIA携手，为软件定义的医疗设备构建其AI平台。此次合作将为Medtronic系统打造一个通用平台，从手术导航到机器人辅助手术皆包含在内。

今天，Medtronic宣布基于NVIDIA Holoscan构建新一代GI Genius系统，将AI用于早期检测结肠癌并将于今年年底推出。

9)cuLitho

芯片行业几乎是各行各业的基础。芯片制造要求极高的精确度，生产出的特征比细菌小1000倍，大小约为一个金原子或一条人类DNA链的尺寸。光刻，即在晶圆上创建图案的过程，是芯片制造过程的起始阶段，包括两个阶段-光掩模制作和图案投影。从根本上来说，这是一个物理极限下的成像问题。光掩模如同芯片中的模板光线被阻挡或穿过掩模，到达晶片以形成图案。光线由ASML EUV极紫外线光刻系统产生，每个系统的价值超过2.5亿美元。ASML EUV采用一种颠覆性的方式来制造光线，激光脉冲每秒向一滴锡发射5万次，使其汽化，产生一种能发射13.5纳米EUV光的等离子体，几乎是X射线。随后，多层镜面引导光线至光掩膜，光掩膜板中的多层反射器利用13.5纳米光的干涉图案实现更精细特征，精细度可达到3纳米，很神奇。

晶圆的定位精度达到四分之一纳米，并且每秒对准2万次以消除任何振动的影响。光刻之前的步骤同样令人不可思议。计算光刻应用逆物理算法，来预测掩膜板上的图案，以便在晶圆上生成最终图案。事实上，掩膜上的图案与最终特征完全不相似。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为。这些行为是根据麦克斯韦方程描述的。计算光刻是芯片设计和制造领域中最大的计算工作负载，每年消耗数百亿CPU小时。大型数据中心24x7全天候运行，以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。随着算法越来越复杂，计算光刻技术也在快速发展，使整个行业能够达到2纳米及以上。

NVIDIA今天宣布推出cuLitho——一个计算光刻库。cuLitho是一项历时近四年的庞大任务，我们与台积电、ASML和Synopsys密切合作，将计算光刻加速了40倍以上。NVIDIA H100需要89块掩膜板。在CPU上运行时，处理单个掩膜板当前需要两周时间。如果在GPU上运行cuLitho，只需8小时即可处理完一个掩膜板。台积电可以通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，从而替代用于计算光刻的4万台CPU服务器。借助cuLitho，台积电可以缩短原型周期时间，提高产量，减少制造过程中的碳足迹，并为2纳米及以上的生产做好准备。台积电将于6月开始对cuLitho进行生产资格认证。

三、数据中心硬件

1)Grace CPU

所有行业都需要加速各种工作负载，以便我们能减少功耗，达到事半功倍的效果。在过去十年中，云计算每年增长20%，成为了价值1万亿美元的巨大行业。大约3000万台CPU服务器完成大部分处理工作，但挑战即将到来。随着摩尔定律的终结，CPU性能的提高也会伴随着功耗的增加。另外，减少碳排放这一任务从根本上与增加数据中心的需求相悖。因此，云计算的发展受到功耗限制。

首要的，数据中心必须加速各种工作负载。加速将会减少功耗，节省的能源可以促进新的增长。未经过加速的工作负载都将会在CPU上进行处理。加速云数据中心的CPU侧重点与过去有着根本性的不同。在AI和云服务中，加速计算卸载可并行的工作负载，而CPU可处理其他工作负载，比如Web RPC和数据库查询。因此，我们为AI和云优先的行业设计了Grace CPU，其中AI工作负载由GPU加速，单线程执行和内存处理则是Grace的擅长之处。

但这不仅仅是CPU芯片的问题，数据中心管理员负责对整个数据中心的吞吐量和TCO进行优化。

为了在云数据中心规模下实现高能效，我们设计了Grace。Grace包含72个Arm核心，由超高速片内可扩展的、缓存一致的网络连接，可提供3.2 TB/s的截面带宽。Grace Superchip通过900 GB/s的低功耗芯片到芯片缓存一致接口，连接两个CPU芯片之间的144个核。内存系统由LPDDR低功耗内存构成(与手机上使用的相似)，我们专门对此进行了增强，以便在数据中心中使用。它提供1 TB/s的带宽，是目前系统的2.5倍，而功耗只是其1/8。

整个144核Grace Superchip模组的大小仅为5x8英寸，而内存高达1TB。该模组的功耗超低，风冷即可。这是带有被动冷却功能的计算模组。两台Grace Superchip计算机可以安装进一台1U风冷服务器即可正常运行。Grace的性能和能效非常适合云计算应用和科学计算应用。我们使用热门的Google基准测试(测试云微服务的通信速度)和Hi-Bench套件(测试Apache Spark内存密集型数据处理)测试了Grace。此类工作负载是云数据中心的基础。

在微服务方面，Grace的速度比最新一代x86 CPU的平均速度快1.3倍，而在数据处理中则快1.2倍。而达到如此高性能，整机功耗仅为原来服务器的60%。云服务提供商可以为功率受限的数据中心配备超过1.7倍的Grace服务器，每台服务器的吞吐量提高25%。在功耗相同的情况下，Grace使云服务提供商获得了两倍的增长机会。Grace正在进行样品调测，华硕、Atos、GB、HPE、QCT、Supermicro、Wistron和ZT目前正在构建系统。

2)NVIDIA BlueField

在现代软件定义的数据中心中，操作系统在执行虚拟化、网络、存储和安全任务时会消耗近一半的数据中心CPU核心和相关功耗。数据中心必须加速每个工作负载，从而降低功耗并释放CPU给可创造收入的工作负载。

NVIDIA BlueField卸载并加速数据中心操作系统和基础设施软件。Check Point、思科、DDN、Dell EMC、Juniper、Palo Alto Networks、Red Hat和VMWare等超过二十个生态系统合作伙伴使用BlueField的数据中心加速技术来更高效地运行其软件平台。BlueField-3已投入生产，并被领先的云服务提供商所采用以加速其云计算平台，比如百度、CoreWeave、京东、Microsoft Azure、Oracle OCI和腾讯游戏。

3)NVIDIA DGX H100

NVIDIA加速计算始于DGX(AI超级计算机)。这是大语言模型实现突破背后的引擎。我亲手将全球首款DGX交给了OpenAI。自此之后，《财富》100强企业中有一半安装了DGX AI超级计算机。DGX已成为AI领域的必备工具。

DGX配有8个H100 GPU模组，H100配有Transformer引擎，旨在处理类似令人惊叹的ChatGPT模型。ChatGPT是生成式预训练Transformer模型的代表。这8个H100模组通过NVLINK Switch彼此相连，以实现全面无阻塞通信。8个H100协同工作，就像一个巨型GPU。

计算网络是AI超级计算机的重要系统之一。400 Gbps超低延迟的NVIDIA Quantum InfiniBand具有网络内计算功能，可将成千上万个DGX节点连接成一台AI超级计算机。NVIDIA DGX H100是全球客户构建AI基础设施的蓝图，现在已全面投入生产。

微软宣布将向其H100 AI超级计算机开放私人预览版，而Atos、AWS、Cirrascale、CoreWeave、戴尔、Gigabyte、谷歌、HPE、Lambda Labs、联想、Oracle、Quanta和SuperMicro也将很快开放系统和云服务。DGX AI超级计算机的市场获得了显著增长，从最初被用作AI研究工具，现在正在不断扩展其应用范围，能够全天候运行以优化数据和处理AI。

四、DGX云&生成式AI

1)DGX云

DGX超级计算机是现代AI工厂，我们正处于AI的“iPhone时刻”。初创公司竞相构建具有颠覆性的产品和商业模式，而老牌公司则在寻求应对之法。生成式AI引发了全球企业制定AI战略的紧迫感。客户需要更简单快捷地访问NVIDIAAI，因此，NVIDIA宣布推出NVIDIA DGX Cloud，并与Microsoft Azure、Google GCP和Oracle OCI合作，为客户提供出色的NVIDIAAI以及全球主要的云服务提供商。这种双赢的合作伙伴关系为迫切需要使用生成式AI的客户提供了在全球云端即时访问NVIDIA AI的机会。

Oracle Cloud Infrastructure(OCI)将成为首个NVIDIA DGX Cloud。OCI具有出色的性能，它拥有两层计算网络和管理网络，具有业界最佳RDMA功能的NVIDIA CX-7提供了计算网络，而BlueField-3将成为管理网络的基础设施处理器。这种组合是一款先进的DGX AI超级计算机，可提供多租户云服务。

2)NVIDIA AI Foundations

ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知，这些应用的易用性和令人印象深刻的功能，短短几个月内就吸引了超过一亿的用户。ChatGPT是迄今历史上用户数量增长最快的应用，无需训练只需给这些模型下指令即可。生成的文本令人赞叹，ChatGPT可以撰写备忘录和诗歌，改写研究论文，解决数学问题，突出合同的关键点，甚至编写软件程序。ChatGPT是一台计算机，它不仅可以运行软件，还能编写软件。众多突破性成果造就了生成式AI，Transformer能以大规模并行的方式，从数据的关系和依赖性中学习上下文和含义，这使得大型语言模型能够利用海量数据进行学习，他们可以在没有明确训练的情况下执行下游任务，受物理学启发的扩散模型通过无监督学习来生成图像。

在短短十几年的时间里，我们经历了从试图识别猫到生成穿着太空服在月球上行走的逼真猫图像的过程。生成式AI是一种新型计算机，一种我们可以用人类语言进行编程的计算机。这种能力影响深远，每个人都可以命令计算机来解决问题，而之前这是只有计算机程序员才能接触的领域。现在每个人都可以是程序员。生成式AI是一种新型计算平台，与PC、互联网、移动设备和云类似。与之前的计算时代类似，先行者正在打造新的应用，并成立新公司，以利用生成式AI的自动化和协同创作能力。

⚫借助Debuild，用户只需说明自己想要的内容即可设计和部署Web应用。

⚫Grammarly是一款可以结合上下文的写作助手。

⚫Tabnine可帮助开发者编写代码。

⚫Omnekey可生成定制广告和文案。

⚫Kore.ai是虚拟客服。

⚫Jasper可生成营销材料，已经编写了近50亿字，将初稿生成时间缩短了80%。

⚫Insilico利用AI加速药物设计。

⚫Absci正在使用AI预测治疗抗体。

生成式AI将重塑几乎所有行业。许多公司都可以使用某个即将上市的超赞的生成式AI API。一些专业领域的公司需要使用其专有数据来构建定制模型。他们需要制定使用规范并优化模型，以契合公司的安全、隐私和安保要求。这个行业需要一个类似台积电的代工厂，来构建自定义的大型语言模型。

今天，我们宣布推出NVIDIA AI Foundations。这是一项云服务，面向需要构建、优化和运营定制LLM(大型语言模型)和生成式AI，使用其专有数据进行训练，用于处理特定领域的任务。NVIDIAAI Foundations包括语言、视觉和生物学模型制作服务。NVIDIA Nemo用于构建定制的语言文本转文本生成式模型。客户可以引入自己的模型，或从Nemo涵盖了GPT-8、GPT-43到GPT-530等数十亿参数的预训练模型入手。从创建专有模型到运营，NVIDIA AI专家将全程与您合作。

我们一起来看一下生成式模型，比如NVIDIA的43B基础模型，通过基于数十亿个句子和数万亿个单词进行训练来学习。随着模型的收敛，它开始理解单词与其基本概念之间的关系。这些关系通过模型嵌入空间中的权重进行捕获。Transformer模型使用一种名为自注意力的技术：一种旨在学习一系列单词中的依赖性和关系的机制。其结果是得到一种模型，该模型可为类似ChatGPT的体验奠定基础。这些生成式模型需要大量数据、数据处理和分布式训练方面深厚的AI专业知识，以及大规模计算，以跟上创新的步伐进行训练、部署和维护。

企业可以通过在NVIDIA DGX Cloud上的NVIDIA NeMo服务快速采用生成式AI。最快的方法是从NVIDIA的先进预训练基础模型开始入手。借助NeMo服务，人们可以轻松自定义模型并进行参数调优，以教授其专业技能，例如汇总财务文档，创建特定品牌的内容，以及以个性化的写作风格撰写电子邮件。将模型连接到专有知识库可以确保响应是准确的、最新的，并为其业务所引用。接下来，他们可以通过添加逻辑以及监控输入、输出、毒性和偏差阈值来提供防护栏，以便模型在指定的领域内运行并防止出现意外响应。模型投入使用后，可以根据用户交互通过强化学习不断改进。在迁移到云API进行更大规模的评估和应用集成之前，可以使用NeMo进行快速原型设计。立即注册以获取NVIDIA NeMo服务，将您的企业知识编入个性化的由您控制的AI模型。

Picasso是一项视觉语言模型制作服务，面向希望使用许可内容或专有内容来训练自定义模型的客户。我们一起来看一下，生成式AI正在改变视觉内容的创建方式。但要充分发挥其潜力，企业需要大量版权许可的数据、AI专家和AI超级计算机。NVIDIA Picasso是一项云服务，用于构建和部署生成式AI赋能的图像、视频和3D应用。借助此服务，企业、ISV和服务提供商可以部署自己的模型。我们正在与主要合作伙伴合作，力求为各行各业提供生成式AI功能。另外，人们还可以从NVIDIA Edify模型入手，使用自己的数据训练这些模型，以创建产品或服务。这些模型可生成图像、视频和3D素材。

要访问生成式AI模型，应用需向Picasso发送带有文本提示和元数据的API调用。Picasso使用在NVIDIA DGX Cloud上运行的适当模型，将生成的素材发送回应用。这些素材可以是逼真的图像、高分辨率视频或详细的3D几何图形。可将生成的素材导入编辑工具或NVIDIA Omniverse，以构建逼真的虚拟世界、元宇宙应用和数字孪生仿真。

借助在NVIDIA DGX Cloud上运行的NVIDIA Picasso服务，您可以简化构建自定义生成式AI应用所需的训练、优化和推理。了解NVIDIA Picasso如何为您的应用带来变革性的生成式AI功能。我们很高兴Getty Images将使用Picasso服务构建Edify图片和Edify视频生成式模型。这些模型以其丰富的内容库为基础进行训练，其中包含大量以负责任授权的方式获得许可的专业图像和视频素材。企业将能够使用简单的文本或图像提示创建自定义的图像和视频。

Shutterstock正在开发一款以其专业的图像、3D和视频素材库进行训练的Edify-3D生成式模型。Shutterstock将帮助简化用于创意制作、数字孪生和虚拟协作的3D素材的创建过程，使企业能够更快更轻松地实现这些工作流。

我很高兴地宣布，我们与Adobe之间的长期合作将迎来重要扩展。我们将共同构建一系列新一代AI功能，打造创意领域的未来，将生成式AI融入营销人员和创意专业人士的日常工作流。新的生成式AI模型将针对图像、视频、3D和动画制作进行优化。为了保护艺术家的权利，Adobe正在开发以商业可行性和正确内容归属为重点的方案，该方案由Adobe的“内容真实性倡议”提供支持。

我们的第三个语言领域是生物学。药物研发是一个价值近2万亿美元的行业，研发投入高达2500亿美元。NVIDIA Clara是一款医疗健康应用框架，用于影像仪器、基因组学分析和药物研发。目前，该行业正在转向利用生成式AI来发现疾病靶因，设计新型分子或蛋白质类药物，以及预测药物对机体的作用。数百家新型AI药物研发初创公司相继涌现，Insilico Medicine、Exscientia、Absci和Evozyme就是其中之一。有些公司已经发现了新型靶标或候选药物，并开始了人体临床试验。

BioNeMo可帮助研究人员使用专有数据创建、微调和提供自定义模型。药物研发包括3个关键阶段：发现引发疾病的机理、设计新分子——无论是小分子、蛋白质还是抗体，以及最后就这些分子之间相互作用的方式进行筛选。如今，生成式AI正在改变药物研发过程的每一步。

NVIDIA BioNeMo服务提供先进的用于药物研发的生成式AI模型。它可作为云服务提供，让用户即时轻松地访问加速的药物研发工作流。BioNeMo包括AlphaFold、ESMFold和OpenFold等用于三维蛋白质结构预测的模型，ProtGPT用于蛋白质生成，ESM1和ESM2用于蛋白质特性预测，MegaMolBART和MoFlow用于分子生成，DiffDock则用于分子对接。药物研发团队可以通过BioNeMo的Web界面或云API使用这些模型。

现在，生成式模型可以读取蛋白质氨基酸序列，并在几秒钟内准确预测目标蛋白质的结构。它们还可以生成具有理想ADME特性的分子，从而优化药物在体内的作用方式。生成式模型甚至可以预测蛋白质和分子的三维相互作用，加速最佳候选药物的研发。

借助NVIDIA DGX Cloud，BioNeMo还可提供按需超级计算基础设施，以进一步优化和训练模型，进而为团队节省宝贵的时间和资金，使其专注于研发挽救生命的药物。新的AI药物研发流程已经面世，请注册以获取NVIDIA BioNeMo服务。

我们将继续与业界合作，将模型纳入BioNemo，其中包含药物研发和虚拟筛选的端到端工作流。Amgen、AstraZeneca、Insilico Medicine、Evozyne、Innophore和Alchemab Therapeutics是BioNeMo的早期体验用户。

五、新推理平台

1)L4

NVIDIAAI Foundations是一个云服务和代工厂，用于构建自定义语言模型和生成式AI。自十年前AlexNet面市以来，深度学习就开辟了巨大的新市场，包括自动驾驶、机器人、智能音箱，并重塑了我们购物、了解新闻和享受音乐的方式。这只是冰山一角。

随着生成式AI掀起新一波机遇浪潮，AI正处于转折点，使得推理工作负载呈阶梯函数式增长。AI现在可以生成多种数据，从语音、文本、图像、视频和3D图形，到蛋白质和化学物质，不一而足。

设计一个云数据中心来处理生成式AI是一项巨大挑战。一方面，理想情况下最好使用一种加速器，因为这可以使得数据中心具有弹性，能够应对不可预测的流量峰值和低谷。但另一方面，没有一个加速器能以最优的方式处理在算法、模型、数据类型和数据大小方面的多样性。NVIDIA的One Architecture平台兼具加速功能和弹性。今天，我们宣布推出我们全新的推理平台：四种配置——一个体系架构——一个软件栈。每种配置都针对某一类工作负载进行了优化。

针对AI视频工作负载，我们推出了L4，它针对以下方面进行了优化：视频解码和转码、视频内容审核，以及视频通话功能，例如背景替换、重新打光、眼神交流，转录和实时翻译。如今，大多数云端视频都在CPU上处理。一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。Snap是NVIDIA AI在计算机视觉和推荐系统领域领先的用户。Snap将会把L4用于AV1视频处理、生成式AI和增强现实。Snapchat用户每天上传数亿个视频。

Google今天宣布在其GCP上提供NVIDIA L4。NVIDIA和Google Cloud正在努力加速在L4上部署主要工作负载。我来重点介绍一下其中五个工作负载：

⚫首先，我们正在加速针对Wombo和Descript等云服务的生成式AI模型的推理。

⚫其次，我们会将Triton推理服务器与Google Kubernetes Engine和VertexAI集成。

⚫第三，我们将使用NVIDIA Spark-RAPIDS加速Google Dataproc。

⚫第四，我们将加速AlphaFold UL2和T5大型语言模型。

⚫第五，我们将加速Google Cloud的沉浸式流，以渲染3D和AR体验。通过此次合作，Google GCP成为了首款NVIDIAAI云。我们期待尽快向您详细介绍我们的合作。

2)L40

针对Omniverse、图形渲染以及文本转图像和文本转视频等生成式AI，我们宣布推出L40。L40的性能是NVIDIA最受欢迎的云推理GPU T4的10倍。

Runway是生成式AI领域的先驱。他们的研究团队是Stable Diffusion及其前身Latent Diffusion的主要创造者。Runway正在发明用于创作和编辑内容的生成式AI模型。借助30多种来自云端的AI Magic Tools，他们的服务将彻底改变创作过程。

我们一起来看一下。Runway正在打造令人惊叹的可供所有人使用的AI赋能视频编辑和图像创建工具。在本地或云端运行的最新一代NVIDIA GPU的助力下，Runway让用户只需简单几笔即可从视频中移除一个对象，或仅使用一个输入图像就可以对视频应用不同的样式，或更改视频的背景或前景。过去使用传统工具需要数小时才能完成的工作，现在只需短短几分钟就可以获得专业广播级质量的结果。

在实现这一点的过程中，Runway采用了CV-CUDA，它是一个开源项目，使开发者能够构建GPU加速的高效计算机视觉工作负载预处理和后处理流程，并将其扩展到云。借助NVIDIA技术，Runway得以行不可能之事，让内容创作者获得最佳体验。以前受限的专业工作现在可以由您来完成。事实上，Runway在奥斯卡提名的好莱坞电影中得到了应用，而我们正在致力将这项技术提供给全世界的创作者。

3)H100 NVL

ChatGPT等大型语言模型是一个新出现的重要的推理工作负载。GPT模型是内存和计算密集型模型。此外，推理是一种高容量、外扩型工作负载，需要标准的商用服务器。

针对ChatGPT等大型语言模型的推理，我们宣布推出一款新的Hopper GPU——配备双GPU NVLINK的PCIE H100。这一款H100配备94GB HBM3显存。H100可以处理拥有1750亿参数的GPT-3。同时还可支持商用PCIE服务器轻松扩展。目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100。与适用于GPT-3处理的HGX A100相比，一台搭载四对H100及双GPU NVLINK的标准服务器的速度要快10倍。H100可将大型语言模型的处理成本降低一个数量级。

4)Hopper GPU和Grace Hopper

Grace Hopper是我们的新的超级芯片，通过900 GB/秒的高速一致性芯片到芯片接口连接Grace CPU和Hopper GPU。Grace Hopper非常适合处理大型数据集，例如适用于推荐系统和大型语言模型的AI数据库。如今，利用大容量内存，CPU会存储和查询巨型嵌入表，然后将结果传输到GPU进行推理。借助Grace-Hopper，Grace可以查询嵌入表，并将结果直接传输到Hopper，速度比PCIE快7倍。客户希望构建规模大几个数量级的AI数据库，Grace-Hopper是理想的引擎。

以上就是NVIDIA的推理平台，一个为适用于多种AI负载最大化的数据中心加速和弹性而设计的架构。

六、Omniverse

全球最大的工业产业都生产实体产品，但他们也希望实现数字化生产方式。Omniverse是一个工业数字化平台，旨在搭建数字化和物理实体之间的桥梁。该平台让各个行业先以数字方式设计、构建、运营和优化实体产品和工厂，然后再投入实际生产。数字化提高了效率和速度，并节省了资金。

Omniverse其中一个用途是以虚拟方式构建工厂，在真正的实体工厂建成之前，以数字方式整合工厂的所有机械设备。这样可以减少在最后时刻出现意外、变更订单和工厂延迟开工等情况。虚拟工厂整合可以为全球工厂节省数十亿美元。

半导体行业正在投资5000亿美元来建造84个新晶圆厂。到2030年，汽车制造商将建造300家工厂生产2亿辆电动汽车。电池制造商正在建造100多家特大型工厂。数字化也在改变物流行业，在全球数十亿平方英尺的仓库之间辗转运输货物。

我们来看看Amazon如何使用Omniverse自动化、优化和规划其自动仓库。Amazon Robotics制造并部署了非常庞大的移动工业机器人机群。此机器人机群的最新成员是Proteus，这是Amazon首个完全自主的仓库机器人。Proteus可利用先进的安全、感知和导航技术在我们的设施中移动。

我们一起来看一下已有近30万名创作者和设计师下载了Omniverse。

Omniverse不是一种工具，而是一个USD网络和共享数据库，也是一种与各行各业使用的设计工具相连接的基础结构。它可以连接、合成和模拟使用行业领先工具创建的3D资产。我们很高兴看到Omniverse生态连接的发展壮大，每个连接都会将一个平台的生态系统与所有其他平台的生态系统连接到一起。Omniverse网络中的网络正在呈指数级增长，现已连接Bentley Systems LumenRT，还连接了Siemens Teamcenter、NX和Process Simulate、Rockwell Automation Emulate 3D、Cesium、Unity等许多应用。

我们来看看价值3万亿美元的汽车行业的数字化，了解汽车公司如何在其工作流中评估Omniverse。沃尔沃汽车公司和通用汽车使用Omniverse USD Composer连接和统一其资产工作流。通用汽车使用Alias、Siemens NX、Unreal、Maya和3ds Max将设计师、雕塑家和艺术家连接到一起，并将汽车零部件在虚拟环境中组装成数字孪生汽车。在工程和仿真中，他们在Omniverse中将Powerflow空气动力学可视化。对于新一代梅赛德斯-奔驰和捷豹路虎汽车，工程师在Omniverse中使用Drive Sim生成合成数据来训练AI模型，通过虚拟NCAP驾驶测试验证主动安全系统，并模拟真实驾驶场景。

Omniverse的生成式AI将以前驾驶的路线重构为3D，以便重现或修改过去的体验。借助Idealworks，宝马在Omniverse中使用Isaac Sim生成合成数据和场景，用来训练工厂机器人。

Lotus正在使用Omniverse以虚拟方式组装焊接站。

丰田公司正在使用Omniverse构建自己工厂的数字孪生。

梅赛德斯-奔驰使用Omniverse为新车型构建、优化和规划组装流水线。

Rimac和Lucid Motors使用Omniverse根据真实的设计数据构建数字商店，这些数据准确地反映他们的汽车的状况。

宝马正在使用Omniverse规划全球近30家工厂的运营。在实际工厂开业两年之前，他们会在Omniverse中完整建造一间新的电动汽车工厂。让我们来观摩一下。

全球各行各业都在加速数字化发展，未来三年，该领域的投资金额将超过3.4万亿美元。宝马努力在汽车数字化领域处于领先地位。借助NVIDIA Omniverse和AI，我们能够更快地建立新工厂，并更高效地进行生产。这会为我们节省大量成本。

这一切都要从规划开始，这是一个复杂的过程。在此过程中，我们需要将许多工具、数据集和遍布全球的专家串联起来。传统上，我们受到限制，因为数据在各种系统和工具中单独管理。如今，这种局面已经实现了全方位的改变。

我们正在开发自定义Omniverse应用，以将现有的工具、专门知识和团队联系在一起，使其处在统一视图中。Omniverse是云原生同时不限平台，可让团队随时随地在我们的虚拟工厂中开展协作。

汽车公司雇佣了近1400万名员工。

数字化将提高整个行业的效率、生产力和速度。

Omniverse是实现工业数字化的数字到物理操作系统。

今天，我们要宣布推出三款专为运行Omniverse而设计的系统。

首先，我们将推出由NVIDIA Ada RTX GPU和英特尔的最新款CPU提供动力支持的新一代工作站。

这款新工作站非常适合用于光线追踪、物理仿真、神经图形和生成式AI。从3月开始，Boxx、戴尔、惠普和联想将提供这款工作站。

其次，针对Omniverse优化的新型NVIDIA OVX服务器。

OVX由服务器GPU Ada RTX L40和我们的新款BlueField-3组成。OVX服务器将由戴尔、HPE、Quanta、技嘉、联想和Supermicro提供。每一层Omniverse的堆栈包括芯片、系统、网络和软件在内都是新发明。

构建和操作Omniverse计算机需要一个成熟的IT团队。

我们将快速轻松地扩展和运用Omniverse。

我们一起来看一下全球大型行业竞相实现其物理流程的数字化。

目前，这是一项复杂的任务。

NVIDIA Omniverse Cloud是一种平台即服务，支持即时安全地访问托管的Omniverse Cloud API工作流，以及在NVIDIA OVX上运行的可定制应用。

企业团队通过Web浏览器Omniverse Launcher或通过自定义集成访问托管服务套件。

进入Omniverse Cloud后，企业团队可以立即访问、扩展和发布基础应用和工作流，以组装和构建虚拟世界，生成用于训练感知AI的数据，测试和验证自动驾驶汽车或模拟自主机器人。

从而访问共享数据，并将其发布到Omniverse Nucleus。

设计师和工程师在RTX工作站上使用他们惯用的第三方设计工具，并行发布对Nucleus的编辑。

然后，当准备好在Omniverse中迭代或查看其集成模型时，只需打开Web浏览器并登录即可。

随着项目和团队规模的扩大，Omniverse Cloud可帮助根据需要调配计算资源和许可证，从而优化成本。

新的服务和升级会自动获得实时更新。

借助Omniverse Cloud，企业可以在主要的工业工作流中快速实现统一的数字化和协作、提高效率、降低成本和减少浪费，加速实现创新。

今天，我们宣布推出NVIDIA Omniverse Cloud。这是一种完全托管的云服务。我们正在与Microsoft合作，将Omniverse Cloud引入全球各个行业。我们将在Azure中托管它，并通过Microsoft丰富的存储、安全性、应用和服务组合受益。我们正在将Omniverse Cloud连接到Microsoft 365生产力套件，其中包括Teams、OneDrive、SharePoint和Azure IoT Digital Twins服务。Microsoft和NVIDIA正在将Omniverse带给数以亿计的Microsoft 365和Azure用户。

加速计算和AI技术已经走进现实。开发者使用NVIDIA来提速和扩大规模，从而解决之前无法解决的问题。净零排放是一项艰巨的挑战，每家公司都必须加速所有工作负载以减少功耗。加速计算是一项全栈的数据中心级计算挑战。Grace、Grace-Hopper和BlueField-3是适用于超级节能加速数据中心的新芯片。加速库可解决新挑战，开辟新市场。我们更新了100个加速库，包括用于量子计算的cuQuantum、用于组合优化的cuOpt以及用于计算光刻的cuLitho。我们很高兴能与台积电、ASML和Synopsys合作，达到2纳米及更高精度制程。

NVIDIA DGX AI超级计算机是生成式大型语言模型取得突破的引擎。DGX H100 AI超级计算机正在生产中，并即将通过全球不断扩大的OEM和云服务合作伙伴网络面世。DGX超级计算机没有止步于研究，正在成为现代化的AI工厂。每家公司都将会制造智能。我们通过与Microsoft Azure、Google GCP和Oracle OCI合作，借此扩展NVIDIA DGX Cloud的业务模式。通过一个浏览器就可以将NVIDIA DGX AI超级计算机即时地接入每家公司。DGX Cloud为客户提供在NVIDIA和全球范围内都出类拔萃的CSP。

我们正处于AI的"iPhone时刻"，生成式AI推理工作负载已进入超速运行状态。我们推出了新的推理平台：四种配置，一个体系架构，适用于AI视频的L4，适用于Omniverse和图形渲染的L40，适用于扩展LLM推理的H100 PCIE，适用于推荐系统和向量数据库的Grace-Hopper。NVIDIA推理平台可最大化提高数据中心加速和弹性。NVIDIA和Google Cloud正在合作部署广泛的推理工作负载。通过此次合作，Google GCP成为了首款NVIDIA AI云。NVIDIA AI Foundations是一个云服务和代工厂，用于构建自定义语言模型和生成式AI。NVIDIA AI Foundations包括语言、视觉和生物学模型制作服务。Getty Images和Shutterstock正在构建自定义视觉语言模型。我们正与Adobe合作，为创造性的未来构建一系列新一代AI功能。Omniverse是实现工业数字化的数字到物理操作系统。Omniverse可以统一端到端工作流，并将价值3万亿美元，拥有1400万员工的汽车行业数字化。Omniverse正在跃上云端。我们在Azure上进行托管，与Microsoft合作，将Omniverse Cloud引入全球各个行业。感谢我们的系统、云和软件合作伙伴、研究人员和科学家，尤其是我们优秀的员工。他们为构建NVIDIA加速计算生态系统付出了很大努力。我们正在携手帮助世界实现不可能的事情。

祝各位有一个愉快的GTC！

来源：英伟达

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章