算力芯片后来者：“CUDA两难”有多难？

2023-07-30 08:07

种种迹象表明，人工智能应用对AI芯片的带动已势不可挡，未来几年全球范围内将兴起一场白热化的算力争霸赛。在这场竞赛中，英伟达的GPU已经凭借其超强性能赢得了竞争先机。其并行计算和编程平台CUDA是英伟达“领跑”的最重要推动力。凭借强大而丰富的计算库，CUDA已经得到了广大算法工程师的充分认可，甚至被认为是“巩固英伟达硬件市场地位的护城河”。要想与英伟达的GPU竞争，CUDA成为摆在算力芯片“后来者”眼前的首要问题：兼容CUDA还是走自己的路？哪条路才能走得更远、走得更好呢？

CUDA主页

兼容：跟随CUDA能走多远？

CUDA之所以会成为算力芯片硬件厂商必须要认真考虑的一个选择，最直接的原因，是其已经实现了与芯片客户的强绑定。众多算法工程师已经习惯了一套工具库、一套编程语言，向外迁移总是会存在不习惯的问题。

因此，很多算力芯片硬件厂商选择了兼容CUDA的路线——使硬件能够直接用CUDA调动起来，这样可以降低用户的硬件迁移痛点。

“就像换手机一样，按一个一键迁移，你的程序就装到我的手机上了。”天数智芯副总裁邹翾在接受《中国电子报》记者采访时这样形象描述兼容CUDA的便利，“客户原本用的是CUDA软件，用的是英伟达的卡。当迁移到我们家的产品来，原有的代码一个都不改，直接就能用起来。”

天数智芯天垓100

之所以要兼容CUDA，很大程度上是因为“好用”，也用得顺手。英伟达GPU和CUDA进入行业时间早，为其积累了先发优势，这也是“后来者”兼容CUDA的重要原因。

“大模型的发展绝大多数基于PyTorch训练，最早期都是基于英伟达的GPU，其中用到了大量的CUDA库。现阶段很多大模型都不可避免地会用到CUDA库支持的算子，大模型写好之后，其硬件可以直接支持CUDA，实现无缝对接。” 沐曦集成电路（上海）有限公司联合创始人、CMO孙尔俊在接受《中国电子报》记者采访时表示。

包括大模型企业在内，使用计算芯片的企业所采用的硬件基础基本上是由英伟达的产品搭建的。在一次计算训练中，统一硬件品牌，也能更好保证其训练的稳定性。工程师对CUDA的使用习惯也已经非常稳固，这种使用习惯甚至是从学校受教育阶段便培养起来的。种种原因带来的结果是，英伟达之外的产品，如果不兼容CUDA，市场推广过程将存在一定的困难。

“要想打开市场，短期内必须兼容CUDA生态。”孙尔俊说，“如果不兼容CUDA，就会出现很多问题，包括要在代码上做微调，跑模型时如何实现收敛等问题，这背后的工作量相当大。但如果整个软硬件能够支持CUDA，客户就无需再做二次开发或者修改算法。对我们来说，这是降低客户使用成本最简单的方式。”

兼容CUDA也是在帮助客户节约时间。

对于以大模型为主营业务的企业而言，时间就是生命。模型推演快一天、比竞争对手的产品早一天上线都是非常重要的。因此，若是硬件迁移需要工程师花大量的时间适应软件工具，将极大地降低客户对新产品的接受意愿。

邹翾表示：“我们要站在用户的角度思考问题。客户开发大模型，很多是以效率为第一要义的，很多软件工程，也都是拿到现成的代码再做调优。现在很火的大模型的开发也是同样的，很多厂家先拿到小模型和人工智能的代码，再在此基础上做累加和调优，最终实现规模化。”

天数智芯人工智能应用场景

“考量算力芯片好不好，首先要将客户发展了十几年甚至二十几年的软件基础用起来，解决‘从0到1’的问题。”邹翾表示，“只有这个问题解决了，才能考虑‘从1到100’的问题，也就是能编程支持新的功能的问题。”

从企业战略的角度来看，孙尔俊还表示，英伟达的生态已经形成比较成熟的市场、标准和护城河。基于这样的事实，在既有标准的基础上切入，不管对于GPU设计企业还是其用户来说，都是更加便利且高效的路径。

不兼容：是无奈还是勇敢？

不过，也有业界专家提醒记者，许多宣称“兼容CUDA”的产品，是通过架构的相似性，使产品可以比较容易地运行CUDA的代码。从严格意义上来说，市面上很多宣称“兼容”CUDA的产品，可能存在一定的IP风险。

“兼容”CUDA就像一把双刃剑，一方面可以减轻算力芯片企业的获客成本，但另一方面，一定程度上给产品的创新潜能带来限制。

保证产品创新能力不受限，这是算力芯片企业决定在软件生态上另辟蹊径的主要原因。燧原科技产品市场总经理高平在接受《中国电子报》记者采访时表示：“兼容CUDA，主要是编程模型做到与CUDA一致，但实际上底层的硬件架构又无法实现与英伟达的GPU完全相同。”在高平看来，兼容CUDA只是短期行为，最终将会为企业产品带来发展“天花板”，限制芯片架构创新与性能的提升。

“国外许多企业在做算力芯片，像Graphcore、SambaNova、tenstorrent，没有一家兼容CUDA。之所以不去兼容CUDA，是因为英伟达的GPU从技术实现上并不是最适合做AI计算的。英伟达早期只做GPU图形渲染，只是因为其产品能够借助CUDA在通用计算领域，也就是在包括AI在内的领域用起来，才使其逐渐成为AI算力芯片领域的领头羊。”高平说，“英伟达的计算架构和性价比都不是最合适的。如果英伟达是最合适的，也就没有这么多AI芯片公司存在了。”

燧原科技文生图应用燧原矅图

算力芯片的后来者，要做的是从前人的发展中吸取经验，但依然要走自己的路。

CUDA的出现，最初只是为了使GPU能够满足除视觉处理之外的其他通用计算功能。而之所以CUDA会富有市场竞争力，核心在于它实现了从硬件层到软件层的全跑通，且基于其百万级的客户体量，实现了对性能的优化。

而最终芯片企业的路要怎么走，高平给出了这样的回答：

燧原走的是自定义编程模型的路线。从硬件平台到开发者工具包、计算库和框架，燧原在尝试走出一条独立发展的路径。至于这条路径发展过程中能够吸引来多少客户，高平表示，创新的产品提供足够好的性价比，同时平台迁移的困难并没有想象的那么大，如果客户下定决心向英伟达生态之外的其他产品迁移，是能获得丰厚商业价值回报的。

芯片设计、软件开发，这是一件亟需创新能力的事情。但如果还想走老路，其实就没有往把AI芯片做得更好的路径上走，只是尽可能模仿英伟达的产品，兼容CUDA某种程度也是在壮大对手的生态。而如果不兼容CUDA，走自主创新的道路，产品和企业发展的路径都将更宽。

生态搭建：超越CUDA渠道何在？

软硬件协同完善的生态是客户选择CUDA的根本原因，也是英伟达领先于其他算力芯片企业最核心的竞争力。

尽管在是否兼容CUDA的问题上，算力芯片设计企业具有不同的观点，但在搭建企业生态的问题上，记者接触的算力芯片企业都给出了一致的回答：要建设企业自己的生态体系。

至于何为生态、如何搭建生态，业界的观点存在些许差异。

沐曦选择从指令集开始，到计算库和编译器等层次进行自研，构建软硬件相结合的生态。孙尔俊提到，构建自己的软件栈，首先是打好基础，对标CUDA及以下的抽象层次，充分发挥自己芯片的特色，开发出一套用户可用、易用的编程模型。积硅步以至千里，最终围绕目标客户的需求，完成平滑迁移，同时又能在使用沐曦MXMACA软件栈时充分感受到新特性带来的更优体验。

沐曦展示其产品硬件及解决方案

“大家都在谈论生态，好像有些合作伙伴，就是生态了。”高平说，“这个定义可能有点浅。”

在高平看来，所谓的“生态”底层逻辑是开发者生态。AI芯片作为技术属性很强的产品，其核心价值是帮助开发者在这个硬件的基础上加速其算法开发与业务部署。生态建设的成功与否取决于这款产品能否给客户带来价值。例如学生学习了这款产品的知识能够帮助其找到工作，企业使用该产品后能实现其业务目标，并且市场上也有相应熟悉该产品的人才储备等等；生态里的每一个角色都能获得利益才是生态健康成长的关键。

“国内厂商可以协同定义自己的编程模型，在此基础上联合开发者进行拓展，让更多的高校、商业伙伴使用。”高平指出。

邹翾指出，当前大模型的出现在系统调优上给出了一个方向，也给出了供应链上下游联合解决问题的理由。如果没有大模型，各家都会选择自己的通用的方式，缺少可以将供应链上下游集合到一起解决问题的利益共同取向。大模型是需要大算力和大互联的东西。如果是三五张卡一台服务器就能解决的问题，一家企业单点调优就实现了。但大模型动辄要调动上万张卡、上千台服务器，还要考虑供电等各种问题，最后呈现的是关乎生产的基础甚至国计民生的东西，它所需要的资源就不是一家企业能够做到的，因此更需要产业链的协作。

关于如何实现产业链协作，实现算力芯片的破局，邹翾表示，可以联通可控的供应链，在所有的供应链成员中了解我们自己有哪些独特的技术，评估有竞争力的地方，结合自己的技术特色解决人工智能发展中存在的问题。

此外，邹翾还表示，要做好自己的产业生态，当前最缺的是大量工程师的调优工作。

“英伟达有100个加速库，每个加速库有1000个函数，加起来大概有10万个函数。这是英伟达几万工程师耕耘了20年，通过解决客户的问题所积累起来的结果。我们现在需要做的，是真正安下心来一点一点做，每当做完之后找单位互测，测完之后再发给企业去用。”邹翾认为，“我们是不缺技术路线的。科研的问题很多都是开源开放，可以找到答案的。现在缺的是工程问题。而工程问题不是靠一个两个人能解决的，而是需要靠成百上千人一起握起手来协同协作。从零到一的突破我们实现了，剩下的就要看时间和积累。”

延伸阅读：

大模型之上，算力芯片企业的路径抉择

算力芯片大热上海车展

作者丨姬晓婷

编辑丨张心怡

美编丨马利亚

监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章