【新智元导读】就在刚刚,老黄在SIGGRAPH大会上透露:Blackwell的工程样片,已在本周正式向全世界发送!随后,老黄和小扎展开了炉边对话,并且亲密换衣,说到激动处,小扎气得一度爆粗。
刚刚,老黄在SIGGRAPH计算机图形会议上透露:就在本周,英伟达已经开始向全世界发送Blackwell的工程样片了!紧接着,主持人Lauren Goode便调侃道:没错,大家低个头,凳子下面就有。值得一提的是,在这款当今最强的AI芯片背后,同样也离不开AI——没有AI,Hopper将无法问世;没有AI,Blackwell也无法成为可能。在他和小扎上演的一场炉边对话中,讲到情绪激动时,小扎甚至一度忍不住出口爆粗。这次,小扎专门给老黄送上了定制的「黑皮衣风」棉服。当然,小扎也穿上了老黄仅用了2小时的「二手」皮衣。(这可比全新的值钱多了)在大会上,老黄宣布,英伟达构建了世界上首个能够理解基于 OpenUSD(语言、几何、材料、物理和空间的生成性AI模型,什么是OpenUSD呢?它指的就是Universal Scene Description,可以理解为一种通用场景描述。老黄表示,比起AI对文本执行的操作,更令人兴奋的,是我们可以对图像执行同样的操作。比如英伟达创建的Edify AI模型,就是一个文本到2D的基础模型。对于品牌来说,它可以创造出可口可乐、汽车、奢侈品等等,然而控制提示,就是一件困难的事。这是因为,词语的纬度非常低,它在内容上极其压缩,但同时又非常不精确。为此,英伟达创造了一种方法——创造另一个模型,实现控制和调整它与更多条件的对齐。使用Omniverse,可以组合所有这些多模态数据和内容,无论是3D,AI,动画,还是材质。我们可以改变它的姿势、位置,总之改变我们想要的任何东西。使用Omniverse中的条件化提示,就跟检索增强生成一样,可以理解为一种3D增强生成。
这样,我们就可以按照喜欢的方式生成图像了。
接下来,WPP用Shutterstock与世界知名品牌完成的作品,直接震撼了全场。
在一个空房间里给我建一张桌子,周围摆着椅子,在一个繁忙的餐馆里。
在一条空旷的道路上给我建一辆车,周围是树木,靠近一座现代房屋。给我建一片巨大的热带雨林,里面有奇异的鲜花和阳光射线。Omniverse现在能够理解文本到USD的转换。它能够理解文本,并拥有一个语义数据库,因此可以搜索所有的3D对象。因此,小女孩可以描绘自己想以什么方式填充3D树,完成之后,3D场景就会进入生成式AI模型,将其转化为照片级真实感的模型。从此,越来越多的生成式AI会出现在Omniverse中,帮人们创建这些模拟,或数字孪生。在当下,客户服务是由人类完成的,但在未来,AI将参与其中。客户服务会连接到一个数字人前端,也就是一个IO。这个IO可以说话,还能与我们眼神交流。各类AI都可以连接到这个数字人,甚至数字人还可以连接到英伟达的检索增强生成客户服务AI上。NIM服务
NIM专为不同的工作流量身定制,包括OpenUSD、3D 建模、物理、材料、机器人、工业数字孪生和物理AI。在AI和图形领域,英伟达推出了专为生成物理AI应用程序设计的全新OpenUSD NIM微服务。这个工作流包括,用于机器人模拟等的新NIM微服务,来加速人形机器人的开发。「三体」创造机器人
如果机器人技术想进步,就需要先进的AI和逼真的虚拟世界;而在部署下一代人形机器人之前,我们需要对AI进行训练。机器人技术需要三台计算机:一台用于训练AI,一台在物理精确的模拟中测试AI,另一台位于机器人本身内部,可以学习如何优化机器人。为此,英伟达创造了三台计算机。
没有AI,就没有H100/H200和B100
从1990年代开始的英伟达历史中,真正的DNA就在于计算机图形学。
计算机图形学,也一路把英伟达带到了今天的位置。
这幅图中,展示了计算机行业一些重要的里程碑,包括IMB 360系统、犹他茶壶、光追、可编程着色等等1993年,英伟达成立。八年后,他们发明了第一个可编程着色GPU,很大程度上推动了英伟达的发展历程。可以说,英伟达所做的一切,背后的核心就是加速计算。他们坚信,如果创建一种计算模型来增强通用计算,就可以解决普通计算机无法解决的问题。将计算机图形学应用到当时非主流的领域——3D图形视频游戏,直接推动了英伟达的飞轮。此后,他们花了很长时间让CUDA无处不在,然后在2012年,就仿佛《星际迷航》中一般,英伟达第一次接触了AlexNet。在2012年,那是一个爆炸性的时刻,AlexNet在计算机视觉上取得了惊人的突破。它的核心——深度学习如此深刻,再也不需要工程师们提供输入后,去想象输出的样子了。2016年,英伟达推出了第一台为深度学习打造的计算机DGX-1,被马斯克看上,随后产品被交付给当时名不见经传的OpenAI。未来人人都有AI助手
如今,我们已经学会用AI学习一切,不仅仅是单词,还有图像、视频、3D、化学物质、蛋白质、物理学、热力学、流体动力学、粒子物理学等等。在老黄看来,基于视觉计算的生成式AI革命,正在增强人类的创造力。我们真正处于革命性的时刻,迈向软件3.0的时代——没有哪个行业,能逃过AI的影响!老黄预言:每个人都会有一个AI助手,每家公司、公司内的每一项工作,都将得到AI的帮助。加速计算,让能源问题有解
虽然生成式AI有望提高人类生产力,但AI基础设施的耗能问题,却是困扰整个地球的大问题。ChatGPT的一次搜索,相当于10次谷歌搜索的电量。数据中心消耗了全球总体能源的1%到2%,甚至可能在十年内达到6%。「加速计算可以帮我们节省大量能源,它能节省20倍、50倍,并且执行相同的处理,」老黄说。「作为一个社会,我们要做的第一件事就是加速我们能做到的每一项应用:这减少了全世界的能源使用量。」这也是为什么Blackwell备受期待,因为它使用同样的能量,却大大加速了应用程序。老黄强调:要记住,生成式AI的目标并不是训练,而是推理。理想情况下,推理可以为我们创建预测天气的新模型、预测新材料、优化供应链等等。要知道,数据中心并不是唯一消耗能源的地方。全球数据中心只占总计算量的40%,60%的能源消耗在网上,移动着电子、比特和字节。因此,生成式AI将减少网上的能源消耗,因为不需要去检索信息,我们可以在现场直接生成了。而且就在刚刚,英伟达在GCP中部署了GPU,来运行Pandas。这个世界上最领先的数据科学平台,直接把速度从50提升到了100倍,超过了通用计算。在过去10到12年的时间里,我们已经将深度学习的速度提升了100万倍,成本和能耗降低了100万倍,这就是为什么LLM能够诞生。不过,英伟达还会通过设计新的处理器、新系统、Tensor核心GPU和NVLink交换机结构,给AI带来新的创新。
今年SIGGRAPH上两位CEO的炉边对谈让很多人期待已久。用小扎本人的话来说,「两个行业内最资深的创始人」,究竟会碰撞出怎样的火花?下一波浪潮
不出意外的是,这两位「青梅煮酒」的英雄都各自分享了自己的预判,大谈未来的技术发展趋势,从GenAI,到Agent,再到小扎始终念念不忘的「元宇宙」。老黄表示,GenAI的技术力量也让他感到震撼,「我不记得有哪项技术以如此迅猛的速度影响了消费者、企业、工业和学界,而且跨越了从气候技术到生物技术,再到物理科学的所有不同领域。」小扎也表示,GenAI很可能会重塑Meta的各类社交媒体软件。曾经,这些产品的核心——推荐系统,仅仅是将感兴趣的内容推送给用户。但GenAI将不再局限于已有内容,不仅能协助创作者,还会为用户创建即时内容,或综合现有内容进行生成。在之前的演讲中,老黄就明确表示,「未来每个人都将有自己的AI助手」。这场对谈中,小扎也表述了类似的愿景。他正在为Meta规划AI助手和AI Studio产品,让每个人都能为不同用途创建自己的Agent。未来,每个企业都将拥有自己的AI,正如今天所有公司都有自己的社交媒体和邮箱账号一样。他们口中的「AI助手」,究竟要达到何种程度的「智能」?我们目前看到的Llama 3仅仅是一个「聊天机器人」般的语言模型,只能对人类的提问做出响应。但小扎希望,可以给AI赋予「意图」(intent)。老黄则将其描述为「规划能力」,能像人类一样在脑海中形成「决策树」,进而指导行为。他甚至更大胆地预测,这种AI助手的成本仅有每小时10美元,却能大大提高工程师们的工作表现。「如果你还没雇佣AI,就赶紧行动起来!」对于Meta最核心也是最独特的AR/VR技术,小扎的蓝图也相当精确,充分体现了他的强迫症人格。(据老黄爆料,小扎切西红柿都有毫米级的精度,而且每片西红柿都不能相互接触。)去年9月,Meta联合雷朋推出了新款智能眼镜,配备音频设备和摄像头,让用户直接从双眼视角拍照,或将眼镜中看到的视野直接直播到Facebook或Instagram上,并集成了对话助手Meta AI。小扎表示,基于雷朋眼镜现在的情况,定价300美元的无显示屏AI眼镜将成为非常热门的产品。根据他的预测,智能眼镜在未来会成为一种类似手机的设备,每个戴眼镜的人都将带上智能眼镜(全世界超过10亿人)。接下来几年时间,Meta还将推出有全息AR功能的眼镜,虽然成本依旧很高,但将会是可行的产品。与智能眼镜不同,混合现实头显更类似于工作站或游戏机,不方便携带但算力更强,能为用户提供更加沉浸式的体验。而且,随着全息AR技术的发展,「虚拟会议」即将成为现实。不同于Zoom平台上的头像或视频,每个人都将有自己的全息影像,即使身处不同的物理空间,也能让全息图打造的「虚拟人」在同一空间内合作交互。开源是前进之路
提到Meta,他们一贯实行的「开源」策略也是不得不谈的要点。老黄就十分赞赏这种策略,他表示,Llama 2可能是去年AI领域最重要的事件;加上PyTorch和最新发布的Llama 3.1,Meta已经构建了一整个生态系统。但小扎表示,他们走上开源之路也是一种「随机应变」。在很多赛道上,尤其是分布式计算系统和数据中心方面,Meta的起跑线其实落后于其他公司,因此团队想到了开源,尤其是开放计算(open compute)。没有想到的是,这种权宜之计反而成为「弯道超车」的关键策略。正是开源,让Meta发布的产品成为行业标准,整个供应链也围绕其建立。通过将项目开源,Meta甚至还节省了数十亿美元。比如,Meta进入GPU领域的时间其实晚于大多数公司,但他们目前运营的GPU超算集群,规模几乎超过了所有竞争对手。当然,这背后少不了老黄的大力支持,毕竟Meta的60万张GPU也都出自英伟达之手。开源虽然能推动这个社区和行业的进步,但小扎也很诚实地表示,开源不是做慈善,我们选择这种策略并不是因为有一颗无私奉献的心。更主要的目的,是希望让正在构建的产品登峰造极,成为最好的东西。PyTorch就是最典型的例子,全世界的开发人员,包括英伟达的两三百名工程师,都在帮这个开源框架找bug、做优化,构成了老黄口中的「PyTorch的工程之山」。虽然小扎自己也承认,开源是有私心的,但谈到「封闭」平台时还是克制不住地情绪激动。全场唯一脏话就出自这个话题。虽然Meta坐拥一众王者级社交软件,但这些应用程序都需要通过竞争对手的平台进行分发,尤其是苹果应用商店,以及谷歌的安卓系统。让小扎很气恼的是,他曾经有过很多产品创意,但受限于这些移动平台的各种限制,最终都无法成行。移动互联网时代的这种极度依赖平台的特点,与曾经PC时代的开放完全不同,这让小扎相当怀念网页端的Facebook。因此,他满怀信心地表示,我们正在塑造下一代计算平台,即混合现实技术,其中开源软件将重新拥有更大的价值。下一代平台和生态系统将更具有开放性、包容性,类似之前的Windows或安卓生态,而非完全封闭的苹果。这种「让开源重新伟大」的雄心,让人不禁想起Llama 3.1发布时他的比喻——Llama 3.1是这个时代的Linux。CEO不好做
整个对谈过程中,两人颇有惺惺相惜之感,而且经常谈到CEO这份职业的艰难。时年61岁、穿着皮夹克的Jensen甚至一脸严肃地自比娇花:「我们是CEO,像娇嫩的花朵,需要很多支持。」这种感慨,也许来自于两位资深创始人曾经和公司共同经历的风雨。在小扎看来,老黄当年顶着不被看好的压力,硬要把计算机做成「超级巨兽」,让英伟达终成行业传奇;在老黄看来,小扎带着Meta多次转型,从PC端到移动端,从社交媒体到VR/AR和AI的研究。对谈的最后,老黄直言两人的共同之处,「我知道那样做(转型)有多难,我们两个都曾经被狠狠打击过,但这就是成为先锋和创新所必备的。」https://www.youtube.com/watch?v=H0WxJ7caZQUhttps://www.youtube.com/watch?v=w-cmMcMZoZ4