Redian新闻
>
商汤大模型,AI时代的功守道

商汤大模型,AI时代的功守道

公众号新闻
从AI For Science 到AI For Business,商汤拥有绝对的发言权。到了大模型战场,这个状况也不例外。


作者|乔纳斯

商汤大模型体系,“日日新”
4月10日,上海临港,商汤技术交流日,现场座无虚席。
人们在期待商汤的大模型产品,正式介绍前,商汤科技董事长兼CEO徐立展示出一张幻灯片:海报里,一个渺小的人形背影,孤独、却又憧憬地站在一栋赛博朋克式的建筑前,大门已经敞开。
“这张海报就是由大模型生成的。”徐立说,“我们这么多年一直在投入建设超大规模算力,训练越来越大的模型。以GPT-4为代表的超大模型,让我们看到了通用人工智能的曙光。”
通用人工智能(Artificial General Intelligence,简称AGI),是人工智能皇冠上最璀璨的宝石之一。OpenAI 之所以震惊四座,也是因为在GPT系列的模型催化下,机器通过ChatGPT吐出了具备人类思维的结果。
这一次,扣响“通用人工智能”大门的,是商汤大模型。
发布会上,徐立正式介绍了商汤“日日新SenseNova”大模型体系,这是一套综合了视觉识别、自然语言处理、多模态、决策智能等领域的综合大模型。在演示环节,徐立和工程师们实时展示了AI文生图创作、自动化编程、数字人生成、3D建模等多个应用。
技术维度更综合,场景也更丰富——这是商汤大模型系列的显著标签。
除了拿出有千亿级参数的自然语言大模型“商量SenseChat”之外,作为以计算机视觉起家的AI公司,商汤自然不会忽视自身多年在视觉信息上的积累。
将大模型延展至视觉识别、多模态领域,本身也符合人类获取信息的习惯。商汤科技联合创始人、大装置事业群副总裁陈宇恒分享了一组数据:整个互联网的文本数据做适当清洗后,只有不到 10个T,但是最大的图像公开数据集(由50亿张图像组成),大小是240T。
另一方面,如果将图像拆分成信息和代码,当中也包含了丰富的语言素材。徐立也在现场展示了真实世界可以囊括的数据集:一副常见的街景图像中,需要对建筑、机动车、行人、信号灯各个要素进行识别,再生成更加结构化的信息。
“商汤积累了大量视觉类信息,这类信息作为知识,输入我们的多模态网络中,会带来完全不一样的数据基础。”徐立谈到。
商汤正将视觉大模型作为核心技术突破点,以“日日新SenseNova”大模型体系为基座,逐步扩展至大语言模型等多模态路线,之所以叫“日日新”,也是因为商汤可以在以周为单位的数据输入上,达到日日更新。

目前,商汤不仅有自然语言大模型“商量SenseChat”,还一口气推出“秒画SenseMirage”(AI文生图创作平台)、“如影SenseAvatar”(AI数字人生成平台)、“琼宇SenseSpace”和“格物SenseThings”(3D内容生成平台)等一系列生成式AI模型及应用。

AI装备竞赛,商汤底气何在?

商汤的大模型并不是一蹴而就的。
早在2018年前后,商汤就着手大模型初期需要的算力、算法、数据等筹备工作,在当时,这项基础设施还被大多数人称为“AI大脑”。
不论是通用大模型还是AI大脑,都有一项共同点:具备一定程度的泛化性。
所谓泛化,是指机器通过对已知数据的训练学习,从而对未知数据得出预测识别。举个例子,比如有天赋的远动员,可以在教练指导基本动作后,领悟出新动作;再比如一个聪明的理科生,因为数学学得好,也就能把物理学透。
回看商汤的大模型产品组合,从底层通用的“日日新SenseNova”,再到上层的语言对话、数字人、AIGC等多种应用,正是跑通了从通用模型到专属模型的发展链路。
“通用人工智能大模型,正发生革命性的变化,它的学习方式和解锁能力发生了根本改变,变成无招胜有招,能随机应变解决很多新问题。”商汤科技联合创始人、首席科学家王晓刚表示。
但要想入局通用大模型,并不是谁都能拿到入场券。
算力是重要基础。商汤在成立初期,就极为重视建设自身的超算体系,徐立也在发布会上秀出了多年积累战果:历时五年,商汤建设了业界领先的AI大装置,大装置上总共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS(即每秒进行五百亿亿次浮点运算)的总算力,是亚洲目前最大的智能计算平台之一。
如果将大模型的生成式AI诞生过程比作“炼丹”,那么作为GPU的算力,就是炼丹炉下燃烧的熊熊烈火。一个可供参考的案例是,为了跑出GPT-3.5模型,OpenAI使用了约1万颗英伟达GPU来训练。
空有算力的储备还不够,如何更有效地使用算力更为重要。这就必须提到一个关键概念:集群调优。
“1万张卡,理论上比1000张卡有10倍的训练速度,但如果没有从系统到训练框架、算法的联合优化,可能就只有2倍的效率提升,这从ROI角度是完全不划算的。”陈宇恒举例道。
另一个需要注意的技术难点,则是要保证长时间、无故障的运行时间。
按照行业普遍状况,1000张卡在训练时平均每天会有1张卡的故障率,那么当算力进一步提升,产生故障的GPU卡会越来越多。一旦万卡级的集群上线,每日平均无故障的时间可能只有1-2个小时,系统就无法有效训练模型。
为了保证计算集群的正常运行时效,商汤团队得益于多年经验,已经从硬件可靠性、软件容错能力等多个维度,在分布式系统和软件框架的设计上,让计算集群得以去支撑未来万卡级的人工智能大模型并行训练。
目前,商汤AI大装置不仅可输出5000P算力,还实现了多卡并行状态下的高算力利用率,支持最大4000卡并行单任务训练,还能持续7天以上不间断稳定训练。
商汤也会将这套大算力变得更加“产品化”。

“商汤之后会通过大装置的一套产品和解决方案体系,向客户和合作厂家去开放。”陈宇恒表示。

大模型下半场:跑出To B方法论

将 AI 从实验室“抱出来”接受市场检验,是商汤自成立之初的基因所在。可以说,从AI For Science 到AI For Business,商汤拥有绝对的发言权。
到了大模型战场,这个状况也不例外。
作为AI技术的提供方,在“日日新SenseNova”大模型体系问世之前,商汤已经积累了不少服务客户的一线心得。
“我们去年就利用大模型去自动地标注数据、更新模式,当时很多合作伙伴还很难理解。”王晓刚谈到,如今,这种技术手段已经成为行业共识。
目前在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV(Bird Eye View)环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。
基于商汤大装置生成的细分领域AI模型,更是在赋能千行百业。
在元宇宙领域,商汤基于大模型推出了数字人产品,其融合了文本生成图像、大语言模型等技术,较快实现了行业落地。2022 年初,商汤和宁波银行展开深度合作,为其打造了叫“小宁”的数字员工。它可以以拟人的客服形象,为客户提供各类业务知识和办理服务。
在生物医药科研领域,通过商汤的AI大装置和生物企业形成合作,为蛋白质结构的大模型研发提供了训练和推理的优化服务,最终实现将蛋白质结构的大模型预测时间缩短60倍,从而大幅度提高蛋白质结构预测的抗体筛选效率。
而在智能汽车领域,商汤在2022年上半年新增量产的定点数量已经超过300万台,位列智能车舱市场份额第一,通过AI大模型赋能的辅助驾驶以及智能车舱的产品研发,商汤的这套技术体系已累计服务了超过40款车型。
更重要的是,随着大模型深入行业,接入更多客户、合作伙伴后,大模型还会变得更加“聪明”。当商汤的客户、合作伙伴使用模型后,会产生更高质量的数据,这些数据循环后会再回灌到模型,使模型再次迭代,形成一个往复的循环。
“这就是我们所说的,模型内会产生核聚变,它就不光光是训练一个模型的问题,还有很多的工具能够让生态转起来,让模型变得越来越强。”王晓刚有些兴奋地谈到。
通用大模型的魔力已经涌现,传统大模型的开发,很多时候会面临较重的定制化问题,周期长且成本高,难以形成规模化效应。
王晓刚将其比喻为“小农经济的小作坊”,但随着大模型出现,其泛化能力可以在短时间内应对千行百业,不再需要过去大量的手动优化和重复训练,让训练成本急剧降低。
“通用大模型带来了人工智能范式的变化,通过人和机器模型之间的交互,我们能以极低的成本,高效的方式不断解决各个领域新出现的任务,使得研发效率大幅提升。”王晓刚说道。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
腾讯定性此前微信QQ故障为一级事故,商汤推出语言大模型,周杰伦诉网易不正当竞争,京东规定第三方发货时限,这就是今天的其他大新闻!商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此阿里所有产品将接入“通义千问”;商汤科技公布“日日新SenseNova”大模型体系;腾讯定性微信QQ故障为一级事故……抱抱脸开源GPT不用注册直接玩!后续可选各种大模型,网友:“安卓时代”来了阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl钉钉发布的「魔法棒」,展示了大模型时代的未来商汤杨帆:大模型并非单纯暴力美学,背后是大量软件工程系统问题 | 中国AIGC产业峰会U设计周大谈AI时代的设计,不懂点大模型都落伍了商汤版ChatGPT来袭,中国激战千亿“大模型”大模型时代,商汤怎么做?【倒计时5天】在北京!和业内大咖共探大模型时代的“破”与“立”全新升级!大模型时代的“破”与“立”——2023数智产业领袖峰会重磅起航!大模型时代,商汤造“工厂”怎样才能写出好文章?大模型战队再添新丁,王小川、商汤、昆仑万维同日官宣!AI 大底座,大模型时代的答卷做大模型时代的「Linux」, ChatGPT 仅是开端中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布抓住大模型时代的新机遇!“2023数智产业领袖峰会”圆满落幕!50+重磅大咖齐聚北京!大模型时代的“破”与“立”——2023数智产业领袖峰会诚邀参与!Chatgpt小感悟速览本周AI大事 | 阿里、商汤发布大模型,网信办“立规”生成式AI……To B大模型,一场重塑企业软件的大模型革命智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会追赶烙印还得靠上T12MBA行业观察|​商汤加入AI大模型混战,更看重模型能力而非规模iPhone 15 Pro或放弃固态按键,蓝标以AI取代外包,商汤回应大模型质疑,京东零售开启大变革,这就是今天的其他大新闻!对话 APUS 李涛:全面转型做 AI,蒸馏法训练大模型,沉淀中小模型持续打磨“大装置+大模型”,升级业务矩阵,商汤正变得越来越稳健东晋王导草书欣赏大模型时代的“破”与“立”【2023数智产业领袖峰会主旨演讲分享】三个儿子,最“差劲”的一个从斯坦福退学,成了ChatGPT之父刚刚!商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此智源发布FlagOpen大模型技术开源体系,要做大模型时代的“新Linux”GPT-4时代重磅AIGC盛会,微软百度快手商汤英伟达都来了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。