大模型要落地产业，提高性价比是关键｜甲子光年

科技

2023-09-27 10:09

“对京东来说，技术永远只是手段，而不是目的。”

作者｜刘杨楠

编辑｜栗子

过去半年，如果要问：训练一个大模型需要几步？你可能会得到两种答案。一种是“找人、买卡、拉投资”；另一种是“找落地场景、找垂直数据、找大模型和场景的结合点”。

两种答案分别代表了大模型江湖的两大“派别”——前者是理想派，试图复刻、甚至超越OpenAI，在中文世界重现大模型神话；后者则是务实派，瞄准场景痛点，从需求出发，倒推一套技术架构，不求最好，只求最“适合”。

起初，一些已经入局，或正在入局的玩家对新技术的狂热盖过理性思考，一切行动对标OpenAI。但当一项突破性技术走入更大的商业世界，总逃不过如何赚钱的问题。就连OpenAI也不例外。

此刻，大模型拼算力、拼资源的阶段已经告一段落，来到更务实的阶段。提高大模型性价比，是更要紧的任务。

在大模型的训练过程中，人力成本和算力基础设施成本是两大主要支出。其中，人力成本很难降低。因此，如何将有限的算力资源“压榨”出最大的能量，就成了提高大模型性价比的关键命题。

9月26日下午，在2023京东云城市大会（西安站）上，京东云推出了“数智算力矩阵”，从硬件基础设施、到智算集群，再到MaaS服务，提供一站式的大模型服务能力。

“大模型的价值，一定要和实体产业结合。”京东集团技术委员会主席、京东云事业部总裁曹鹏表示，“大模型不会只是一个聊天工具，而是会逐渐发展成一个智能生产力工具，深刻地改变产业链的各个方面。”

大模型对产业链的变革会如何改变数字基础设施？京东云的数智算力矩阵又有何特别之处？「甲子光年」深度对话京东云IaaS产品研发部负责人龚义成及京东云数据中心技术部高级专家王强，聊了聊京东云的数智算力矩阵，以及京东云对大模型产业化的畅想。

1.“我们造一辆好车，

但路不行，车也跑不起来”

经过半年发酵，大模型玩家已经来到了更务实的阶段，开始探索商业化落地。

行业大模型，被认为是目前大模型落地产业的最佳形态，也是很多大模型企业的商业化选择。其中，一个可能存在的误区是，“通用模型+行业数据=行业大模型”。但事实上，训练行业大模型面临着和训练通用大模型一样的“工程化难题”。

数据方面，不同行业的数据呈现不同的集中度和分散状态，数据准备周期和处理难度也各不相同。对于多模态数据而言，如何在训练时高效加载，也是目前十分棘手的问题。

训练和部署环节，如何高效地进行算力调度，提升算力资源利用率，也是企业必须考虑的成本问题。对于中小企业而言，面对全新的技术变革，更是每一分钱都要花在刀刃上。此外，大模型训练环境的稳定性，故障断点恢复及接续训练的处理，也对训练效率产生很大影响。

因此，行业大模型的挑战不仅在技术本身，如何将技术与行业应用场景相结合，并在结合的过程中平衡成本、效率、体验等多重因素，才是大模型行业落地的真正挑战。

人工智能发展历程中，产业落地是一个持续已久的“历史性难题”。

2016年，DeepMind携AlphaGo在国际围棋比赛上大杀四方，一举击败天才少年李世石。一石惊起千层浪，国内大批人工智能初创企业乘势而起，喊出口号，要做“中国的DeepMind”。但在此后几年，大量企业却陷入了大笔烧钱、持续亏损、继续烧钱、亏损扩大的怪圈，最终只能靠资本持续输血。

人工智能商业化窘境背后，很大一部分原因是，一些人工智能企业忽视了技术之外，配套基础设施的重要性。

企业在决策是否采购全新的技术方案时，往往会综合考量多种因素。技术本身的能力只是其一，配套基础设施的效率、成本等因素同样重要。例如，在人脸识别的场景中，即使AI识别技术已经足够准确，但如果搭载AI识别技术的摄像头成本过高，企业也很难采购。

如今，大模型落地依然遵循相似的逻辑。

尽管开源大模型已经大大拉低了整个市场的入局门槛，但企业想要真正训练自己的大模型，依然需要投入建设相应的基础设施，否则无法充分释放大模型的产业价值。“就好比我们造了一辆跑得很快的车，但路不行，车也跑不起来。”京东云IaaS产品研发部负责人龚义成打了一个形象的比喻。

因此，大模型要真正落地产业，需要一套包含IaaS、PaaS到MaaS完整架构的新型数字基础设施。

2.到产业中汲取灵感

打造大模型落地配套基础设施的关键前提，是足够了解产业需求本身。谈到对产业的了解，京东无疑是一个不可或缺的存在。

背靠京东的产业禀赋，京东云已经深入布局产业供应链多年，并逐渐围绕产业链搭建起一套基础设施，其中便包含了大模型布局。

回看京东大模型的布局历程——

2020年，京东基于全栈自研AI技术，推出了言犀人工智能应用平台；
2021年，京东全球首个超算中心落户重庆，围绕人工智能、量子计算等方向进行科学研究探索；同年，京东自主研发的大模型，达到10 亿级参数；
2022年，京东的织女模型参数达到百亿级，在全球自然语言处理领域顶级测试中，以总平均分91.3分位居榜首，刷新自然语言理解技术世界纪录。

今年7月，京东发布面向产业“言犀大模型”，预训练参数达到千亿级。目前，京东云言犀大模型，拥有语音识别、计算机视觉、机器学习、知识图谱、语义理解、多轮对话6大关键技术，50余个成熟API日均调用量达百亿次。目前言犀已经在京东零售、物流、健康、工业等领域实现落地应用，为超5.8亿用户、数十万商家提供服务。

在多年布局中，京东云也看到了来自产业最真实的需求和痛点。

当前有一个行业共识是，将来每个行业都会有自己的行业大模型。但并非每家企业都有独立开发大模型的能力，中小型企业尤其如此。就算企业们有能力独立建设，重复的模型建设也会浪费大量资源和人力。

于是，一些互联网企业已经开始发挥“平台”的力量，推出各自的大模型开发平台，赋能中小企业。

但面对各式各样的大模型开发平台，需求端企业该怎么选？

在和客户交流的过程中，龚义成发现，企业选择大模型开发平台主要关注两大维度——

首先，平台方对场景Know-How的理解是否深刻。“今天我们很多客户虽然知道大模型很火，但具体怎么结合他的业务落地，是大家都会提的问题。”龚义成表示。

其次，训练行业大模型的整体性价比是否合适。在训练大模型的过程中，算力无疑是最大的成本项。这其中算力基础设施平台的建设及运行成本占到了很大部分的比重，因此对于硬件、网络及数据机房的配置解决方案就成了提高大模型性价比的关键命题。

京东云结合多年技术积累，已经打磨出一套完整高效的数智算力基础平台设施解决方案。

3.一份来自京东云的答卷

站在京东云的视角，大模型的训练与应用，对数字基础设施提出了更高的要求——更强算力、更大存力、更加易用、更低门槛的数字基础设施，是建好大模型、用好大模型的前提。

因此，在9月26日举办的2023京东云城市大会（西安站）上，京东云推出了“数智算力矩阵”。从硬件基础设施到智算集群，再到MaaS服务，京东云为千行百业不同需求的客户，打造一站式大模型服务，为孕育大模型提供“肥沃土壤”，筑牢产业发展的数字基底。

具体来看，在硬件基础设施层，京东云“阿尔法”智能算力模块解决方案包括风冷型智能算力模块及液冷型智能算力模块两个产品系列，实现智能算力应用业务的安全、稳定、高效部署运行。

在智算集群层，京东云高性能计算集群主要面向大模型训练、工业制造、气象电力、生物医药、芯片设计、教育科研等行业，这些行业需要大量的CPU、GPU等异构硬件的计算能力，需要高性能的存储资源，在海量计算过程中往往需要涉及多节点协同，又依赖高性能的RDMA网络。

在MaaS层，京东云将京东大模型能力开放出来，通过将开发大模型的底层能力解耦，推出了“言犀AI开发计算平台”，可以为客户的大模型开发和行业应用，提供一站式的解决方案。

在众多互联网大厂中，京东自研AI全栈技术的动作不算最早的，但路径却十分明确——从京东内部需求出发，落地内部场景后，开始对外赋能，深入挖掘产业需求，并最终服务于大模型产业落地。

据了解，阿尔法智能算力模块最初孕育在京东云支持内部算力需求的过程中，在对外服务前，已经经过大量技术筛选、评估，最终形成产品，对外赋能，这便大大减少了客户的担忧。“对于一种全新的解决方案，大家最初很容易担心没人用过，而我们内部已经规模化应用过，可以保证客户使用的安全性。”京东云数据中心技术部高级专家王强表示。

在对外服务的过程中，京东云也不断发掘客户需求，灵活调整解决方案来适配客户多元的需求，并最终整合到解决方案中交付客户。

在全面满足高算力密度部署的同时，阿尔法智能算力模块解决方案已经从三个方面控制成本。

首先，依托供应链资源降本。全部采用京东自研产品，以供应链优选为基础，依托规模化供应链采购，能够将产品价格降低至行业水平之下。

其次，在技术层面，依据京东云多年设计规划、建设、运营和维护经验，在整个设备产品规格开发过程中，不断实现技术创新优化。

最后，在算力模块外部的配套基础设施方面，京东云也将综合评估算力硬件网络配置、建筑环境、电力资源以及地区气候等因素条件，提供完整算力中心供电及制冷系统解决方案，降低算力中心整体PUE，控制算力中心的运行成本。

类似的，言犀AI开发计算平台也经历了这样一个“由内向外”的蜕变。

起初，言犀AI开发计算平台的出现是为了满足京东内部零售、健康等场景开发人员的工作需求。在落地内部场景的过程中，京东云结合开发人员的实际需求，补充了平台的低代码能力，降低开发人员使用门槛。今天的言犀AI开发计算平台，已经能够完全可视化操作，零算法基础的应用人员也能使用。

当前，言犀AI开发计算平台已全面开放，基于京东丰富的内外部应用场景，包括零售、物流、健康、金融等，可以为平台上的基础大模型提供大量行业应用场景。

言犀AI开发计算平台瞄准三类典型用户需求。一类是言犀MaaS服务，开发者可以通过API按量付费；另一类是公有云SaaS版，用户可以通过平台提供的一站式模型开发、训练和部署的能力；另外，京东云也提供私有化交付版本的言犀平台，数据完全本地化部署。

在「甲子光年」看来，数智算力矩阵是京东云站在产业视角给出的大模型建设阶段性答卷。与此同时，部分传统产业也开始由于大模型的推动而发生新的变化。产业的大模型与基础设施，正在“从产业中来，到产业中去”。

4.从产业中来，到产业中去

如今，“大模型会把所有行业重做一遍”的判断已经屡见不鲜。在众多产业中，零售行业是对大模型比较“友好”的产业之一。

零售产业复杂的营销和供应链环节，足以让大模型在零售行业大展拳脚。当下，整个产业链已经开始思考，如何把大模型应用在品牌营销、用户运营过程中。

京东科技副总裁母小海曾表示，随着大模型的持续落地，通过智能交互来选择商品的消费习惯正在形成，这势必推动用户对品牌价值理解的转变。而企业可以通过数据的智能应用，不断构建品牌专业性，这将成为品牌持续增长的关键。

但大模型最终能否顺利落地零售产业，还需要依托一个关键要素——零售行业的高质量数据。

这要求零售企业持续积累高质量行业数据，同时以更实时的消费数据，构建更适合大模型模式的消费习惯，最终实现垂直行业的“智能涌现”。

其中，两大能力为产业大模型的“智能涌现”保驾护航。首先，企业需要强大的数据平台，支持更多维度行业数据的管理；其次，企业要有更强的智能交互能力，加速积累各自行业的专有数据。

数据平台不断实现知识输出，智能平台不断反馈高质量协同数据——二者形成正循环的增长飞轮，才能实现高质量的行业智能应用。

因此，只有自己的场景，才能培养出适合自己的大模型应用。

京东服务千万自营商品SKU，5000万工业品SKU，超800万家活跃企业客户，全国超2000个产业带的真实需求，围绕这些场景训练的大模型更适合产业应用。

这些在实践中积累的大量高质量数据也已经沉淀至言犀大模型中。除70%来自百度的通用数据外，其余30%的数据均来自于京东特有的产业数据，二者相结合训练大模型，也保证了模型有“常识”的同时，足够的“专业”。

“大模型的价值，一定要和实体产业结合。”曹鹏表示。京东每年产生的数百亿交互数据保证了模型的持续迭代和优化。

如今，大模型正在重构千行百业。在过去十余年的布局中，京东无疑已经逐渐和数智供应链的伙伴们长成一体，成为最亲密的合作伙伴。在大模型即将开启的下一个十年，京东云将继续成为产业供应链最坚实的土壤，孕育出一个更加开放融合的大模型生态。

正如曹鹏在2023京东云城市大会（西安站）上说的那样：

“对京东来说，技术永远只是手段，而不是目的。我们发展产业大模型，最终还是希望将产业实践中凝聚出的数字化能力，开放出来服务社会，不断提升产业效率。”

这绝非一句口号。如果说大模型是一辆高性能跑车，那么京东就是这场大模型产业落地竞赛的“造路者”。

无论是此次发布的数智算力矩阵，还是言犀大模型本身，京东都以终为始地从场景本身出发，不断优化大模型落地产业过程中的可用性和性价比。

此刻，大模型落地产业的进程才刚刚拉开序幕，而京东，未来可期。

（本文图片来源：京东）

END.

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章