商汤大模型，AI时代的功守道

公众号新闻

2023-04-13 10:04

从AI For Science 到AI For Business，商汤拥有绝对的发言权。到了大模型战场，这个状况也不例外。

作者｜乔纳斯

商汤大模型体系，“日日新”

4月10日，上海临港，商汤技术交流日，现场座无虚席。

人们在期待商汤的大模型产品，正式介绍前，商汤科技董事长兼CEO徐立展示出一张幻灯片：海报里，一个渺小的人形背影，孤独、却又憧憬地站在一栋赛博朋克式的建筑前，大门已经敞开。

“这张海报就是由大模型生成的。”徐立说，“我们这么多年一直在投入建设超大规模算力，训练越来越大的模型。以GPT-4为代表的超大模型，让我们看到了通用人工智能的曙光。”

通用人工智能（Artificial General Intelligence，简称AGI），是人工智能皇冠上最璀璨的宝石之一。OpenAI 之所以震惊四座，也是因为在GPT系列的模型催化下，机器通过ChatGPT吐出了具备人类思维的结果。

这一次，扣响“通用人工智能”大门的，是商汤大模型。

发布会上，徐立正式介绍了商汤“日日新SenseNova”大模型体系，这是一套综合了视觉识别、自然语言处理、多模态、决策智能等领域的综合大模型。在演示环节，徐立和工程师们实时展示了AI文生图创作、自动化编程、数字人生成、3D建模等多个应用。

技术维度更综合，场景也更丰富——这是商汤大模型系列的显著标签。

除了拿出有千亿级参数的自然语言大模型“商量SenseChat”之外，作为以计算机视觉起家的AI公司，商汤自然不会忽视自身多年在视觉信息上的积累。

将大模型延展至视觉识别、多模态领域，本身也符合人类获取信息的习惯。商汤科技联合创始人、大装置事业群副总裁陈宇恒分享了一组数据：整个互联网的文本数据做适当清洗后，只有不到 10个T，但是最大的图像公开数据集（由50亿张图像组成），大小是240T。

另一方面，如果将图像拆分成信息和代码，当中也包含了丰富的语言素材。徐立也在现场展示了真实世界可以囊括的数据集：一副常见的街景图像中，需要对建筑、机动车、行人、信号灯各个要素进行识别，再生成更加结构化的信息。

“商汤积累了大量视觉类信息，这类信息作为知识，输入我们的多模态网络中，会带来完全不一样的数据基础。”徐立谈到。

商汤正将视觉大模型作为核心技术突破点，以“日日新SenseNova”大模型体系为基座，逐步扩展至大语言模型等多模态路线，之所以叫“日日新”，也是因为商汤可以在以周为单位的数据输入上，达到日日更新。

目前，商汤不仅有自然语言大模型“商量SenseChat”，还一口气推出“秒画SenseMirage”（AI文生图创作平台）、“如影SenseAvatar”（AI数字人生成平台）、“琼宇SenseSpace”和“格物SenseThings”（3D内容生成平台）等一系列生成式AI模型及应用。

AI装备竞赛，商汤底气何在？

商汤的大模型并不是一蹴而就的。

早在2018年前后，商汤就着手大模型初期需要的算力、算法、数据等筹备工作，在当时，这项基础设施还被大多数人称为“AI大脑”。

不论是通用大模型还是AI大脑，都有一项共同点：具备一定程度的泛化性。

所谓泛化，是指机器通过对已知数据的训练学习，从而对未知数据得出预测识别。举个例子，比如有天赋的远动员，可以在教练指导基本动作后，领悟出新动作；再比如一个聪明的理科生，因为数学学得好，也就能把物理学透。

回看商汤的大模型产品组合，从底层通用的“日日新SenseNova”，再到上层的语言对话、数字人、AIGC等多种应用，正是跑通了从通用模型到专属模型的发展链路。

“通用人工智能大模型，正发生革命性的变化，它的学习方式和解锁能力发生了根本改变，变成无招胜有招，能随机应变解决很多新问题。”商汤科技联合创始人、首席科学家王晓刚表示。

但要想入局通用大模型，并不是谁都能拿到入场券。

算力是重要基础。商汤在成立初期，就极为重视建设自身的超算体系，徐立也在发布会上秀出了多年积累战果：历时五年，商汤建设了业界领先的AI大装置，大装置上总共有27000块的GPU芯片卡，可以输出5.0 exaFLOPS（即每秒进行五百亿亿次浮点运算）的总算力，是亚洲目前最大的智能计算平台之一。

如果将大模型的生成式AI诞生过程比作“炼丹”，那么作为GPU的算力，就是炼丹炉下燃烧的熊熊烈火。一个可供参考的案例是，为了跑出GPT-3.5模型，OpenAI使用了约1万颗英伟达GPU来训练。

空有算力的储备还不够，如何更有效地使用算力更为重要。这就必须提到一个关键概念：集群调优。

“1万张卡，理论上比1000张卡有10倍的训练速度，但如果没有从系统到训练框架、算法的联合优化，可能就只有2倍的效率提升，这从ROI角度是完全不划算的。”陈宇恒举例道。

另一个需要注意的技术难点，则是要保证长时间、无故障的运行时间。

按照行业普遍状况，1000张卡在训练时平均每天会有1张卡的故障率，那么当算力进一步提升，产生故障的GPU卡会越来越多。一旦万卡级的集群上线，每日平均无故障的时间可能只有1-2个小时，系统就无法有效训练模型。

为了保证计算集群的正常运行时效，商汤团队得益于多年经验，已经从硬件可靠性、软件容错能力等多个维度，在分布式系统和软件框架的设计上，让计算集群得以去支撑未来万卡级的人工智能大模型并行训练。

目前，商汤AI大装置不仅可输出5000P算力，还实现了多卡并行状态下的高算力利用率，支持最大4000卡并行单任务训练，还能持续7天以上不间断稳定训练。

商汤也会将这套大算力变得更加“产品化”。

“商汤之后会通过大装置的一套产品和解决方案体系，向客户和合作厂家去开放。”陈宇恒表示。

大模型下半场：跑出To B方法论

将 AI 从实验室“抱出来”接受市场检验，是商汤自成立之初的基因所在。可以说，从AI For Science 到AI For Business，商汤拥有绝对的发言权。

到了大模型战场，这个状况也不例外。

作为AI技术的提供方，在“日日新SenseNova”大模型体系问世之前，商汤已经积累了不少服务客户的一线心得。

“我们去年就利用大模型去自动地标注数据、更新模式，当时很多合作伙伴还很难理解。”王晓刚谈到，如今，这种技术手段已经成为行业共识。

目前在智能驾驶领域，基于视觉大模型，商汤实现了可识别3000类物体的BEV（Bird Eye View）环视通用感知算法的实车量产，也构建了感知决策一体化的自动驾驶多模态模型，带来更强的环境、行为、动机解码能力。

基于商汤大装置生成的细分领域AI模型，更是在赋能千行百业。

在元宇宙领域，商汤基于大模型推出了数字人产品，其融合了文本生成图像、大语言模型等技术，较快实现了行业落地。2022 年初，商汤和宁波银行展开深度合作，为其打造了叫“小宁”的数字员工。它可以以拟人的客服形象，为客户提供各类业务知识和办理服务。

在生物医药科研领域，通过商汤的AI大装置和生物企业形成合作，为蛋白质结构的大模型研发提供了训练和推理的优化服务，最终实现将蛋白质结构的大模型预测时间缩短60倍，从而大幅度提高蛋白质结构预测的抗体筛选效率。

而在智能汽车领域，商汤在2022年上半年新增量产的定点数量已经超过300万台，位列智能车舱市场份额第一，通过AI大模型赋能的辅助驾驶以及智能车舱的产品研发，商汤的这套技术体系已累计服务了超过40款车型。

更重要的是，随着大模型深入行业，接入更多客户、合作伙伴后，大模型还会变得更加“聪明”。当商汤的客户、合作伙伴使用模型后，会产生更高质量的数据，这些数据循环后会再回灌到模型，使模型再次迭代，形成一个往复的循环。

“这就是我们所说的，模型内会产生核聚变，它就不光光是训练一个模型的问题，还有很多的工具能够让生态转起来，让模型变得越来越强。”王晓刚有些兴奋地谈到。

通用大模型的魔力已经涌现，传统大模型的开发，很多时候会面临较重的定制化问题，周期长且成本高，难以形成规模化效应。

王晓刚将其比喻为“小农经济的小作坊”，但随着大模型出现，其泛化能力可以在短时间内应对千行百业，不再需要过去大量的手动优化和重复训练，让训练成本急剧降低。

“通用大模型带来了人工智能范式的变化，通过人和机器模型之间的交互，我们能以极低的成本，高效的方式不断解决各个领域新出现的任务，使得研发效率大幅提升。”王晓刚说道。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章