大模型爆火的一年中,生成式 AI 行业最重要的发展瓶颈出现在算力侧。9 月 20 日,红杉美国在文章《生成式 AI 的第二幕》提到,许多生成式人工智能公司在过去一年中很快发现,自身的发展瓶颈不是客户需求,而是 GPU 紧张。漫长的 GPU 等待时间成为常态,以至于一个简单的商业模式出现了:支付订阅费以跳过排队,而获得更好的模型。
在大模型的训练中,参数规模的指数级增加,带来了训练成本的急剧攀升。对于紧张的 GPU 资源,尽可能地发挥出硬件的性能,提高训练效率,变成一件更加重要的事情。AI 开发计算平台是一个重要的解决方案。利用 AI 开发计算平台,一个大模型开发者可以一站式完成覆盖数据准备、模型开发、模型训练及模型部署的 AI 开发全流程。除了能够降低大模型开发的门槛,AI 计算平台通过提供训练优化以及推理管理服务,让计算资源变得更加高效。9 月 26 日,根据京东云在西安城市大会上对言犀 AI 开发计算平台的介绍,使用京东云所推出的言犀 AI 开发计算平台,不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程;之前需要 10 余人的科学家团队工作,现在只需要 1-2 个算法人员;通过平台模型加速工具优化,使用团队能够节约 90% 的推理成本。更重要的是,在大模型快速走入千行百业的当下,言犀 AI 开发计算平台通过对大模型算法开发者和应用开发者同时赋能,对于应用开发者还能够使用低代码的形式实现大模型产品开发。产业大模型开发变得门槛更低,利用和改造大模型,将更加简单了。对一个大模型开发者来说,如果没有 AI 开发计算平台,意味着:在算法和应用的开发过程中,需要自己搭建底层 GPU 算力资源的调度、存储网络、模型管控等一系列体系,整体开发过程将非常原始且门槛非常高。而对于一个正在在内部推行大模型行业应用的公司来说,这意味着成本的迅速上升,以及训练效率的难以保证。一年时间过去,金融、营销、汽车、内容、法律、办公等行业正在积极与大模型做结合。大模型的强大势能成为许多行业里重构竞争格局的重要影响因素。更快地找到自己业务与大模型结合的场景,并高效地落地执行,成为竞争的关键。但发展行业模型并不是一件顺利的事,如今仍然面临一系列的挑战和机遇:数据上,不同行业的数据呈现不同的集中度和分散状态,数据准备周期和处理难度各有千秋;海量多模态的数据在训练时如何高效加载,是一个必须要解决的问题。其次,大模型训练时环境的稳定性,故障断点恢复及接续训练的处理,对训练效率产生很大影响;在训练和部署环节,如何高效的进行算力调度,提升算力资源利用率,也是企业必须考虑的成本问题。京东云在西安城市大会上的分享称,在过去一段时间的实践中,京东云发现,产业大模型的挑战不仅仅在于技术本身,如何将技术与行业应用场景相结合,如何平衡成本、效率、体验,才是大模型行业落地的真正挑战。回归到最基础的开发层面,平衡好成本、效率、体验,意味着需要重新解决并优化一些问题。京东云 IaaS 产品研发部负责人龚义成在采访中进一步解释称,大模型时代对开发基础设施的要求与传统已经产生了巨大的差别。在效率层面上,过去 AI 开发过程中,即使是相对低成本一些的 GPU 也可以完成很多相关工作,但是在大模型场景下,AI 开发已经严重依赖 A100、A800 等高成本 GPU,对 GPU 的算力和性能要求变得更高,成本也随之快速攀升。“因此,在高昂的成本下,如何把这些硬件性能压榨到极致,对于大模型开发的成本效率就变得尤为重要。”在过往 AI 的开发中,数据吞吐的并发度并没有像大模型这么大,因为它需要许多 GPU 同时工作,因此即使本身数据量不大,但大模型的并发读取以及可能带来的延迟问题,对高性能的存储提出了新的要求,过往的存储机制通常无法满足。龚义成还提到,由于数据存取过程中,如果延迟越低,那么整个模型的效率就会更高。如果利用自研的智能芯片,就可完全采用低延迟的网络,那么就能帮助整个模型训练效率的提升。另外,在规模层面上,千亿参数以上的大模型训练基本都要用到千卡以上进行训练。龚义成分享称,这在以往的 AI 开发中是极其少见的,因此这对开发提出了很高且全新的经验要求,对应的开发基础设施也完全不一样。对于想要提高大模型开发效率,帮助大模型更好得在行业中落地的公司来说,一套新的基础设施成为了必要。9 月 26 日,京东在西安城市大会上正式对外发布了言犀 AI 开发计算平台,产品覆盖了数据准备、模型开发、模型训练及模型部署的 AI 开发全流程能力,预置了主流开源大模型以及部分商业化大模型,以及一百多种推理工具和框架,能够有效降低大模型开发门槛和成本。在性能提升方面,言犀 AI 开发计算平台在算力和存储上做了许多技术突破。在底层,平台能够进一步对 GPU 算力进行整体调度和统筹,提高对平台的底层资源使用的调度效率。根据京东云方面的分享,算力方面京东云将在平台中提供第五代的云主机,各种高性能的产品形态,可以提供算力最大可以支持数十万的 GPU 节点规模。网络层面则通过自研 RDMA 拥塞算法,全局调控 RDMA 网络流量路径,不同 GPU 节点最大支持 3.2 Tbps RDMA 网络带宽,传输时延低至 2 us 左右作为基础能力支撑。在存储方面,针对大模型训练数据吞吐量大的情况,京东云的云海分布式存储,能够支持大模型海量数据高并发集群要求,可以做到千万级 IOPS,延迟低至百微秒。配合新的存算分离的架构,云海可为客户节省整体基础设施成本超 30%,现已在高性能计算、AI 训练等新兴场景以及音视频存储、数据报表等传统场景广泛应用。除了能够优化底层资源,言犀 AI 计算平台能够帮助大模型开发者提高全链路效率提高,高效实现数据处理、模型开发、训练、部署、评测以及训练推理优化、模型安全等工作:- 在数据管理环节,言犀能够通过智能标注模型、数据增强模型、数据转换工具集,帮助模型开发者实现数据导入、清洗、标注以及增强所有环节,支持多种文件格式的数据导入和智能解析、提供自动、半自动的数据标注能力。帮助解决数据环节存储分散、数据格式不一、数据质量参差不齐、人工标注数据效率低等问题。
- 在分布式训练环节,言犀平台适配国产硬件,支持 HPC,集成高性能文件系统;提供资源的分配调度策略,保证硬件资源被充分利用;提供统一的交互接口,简化训练任务的管理。帮助解决网络和算法的复杂度快速增长,带来计算资源的稀缺和浪费;HPC、高性能计算、高性能文件系统、异构硬件的使用和适配困难;模型训练的多样性,训练学习成本提高等问题。
- 无代码开发能力方面,则进一步简化产大模型开发过程。用户能够直接选择平台内置的大模型,上传数据后,之后继续选择训练方式,指定超参和 AutoML 两种无代码训练方式之一后,得到一个微调模型或者应用。
- 在应用层,言犀平台内置了问答开发、文档分析开发、插件开发等常用应用场景的无代码开发工具。选择模型、知识库、Prompt 模版以及开发平台后,一键部署。并且能够支持监控、追踪测试以及测试评估。
整体上,言犀 AI 开发计算平台能够满足不同专业程度的用户的使用需求。对于大模型算法开发者来说,能够全流程支持从数据准备、选择模型、代码调优、部署发布等工作。对于应用层开发者,能够利用无代码的方式,可视化点按选择模型、上传数据、配置参数,无需写代码即可实现任务引发,开始模型任务的训练,进而降低门槛。在引入模型方面,目前平台已经内置了言犀、星火、LLama2 等商业模型以及开源模型。龚义成表示,言犀对模型的选择思路更倾向于重视质量多过数量:选择各个技术领域相对优秀的商业模型,以及一些围绕基础模型打造的行业模型,避免用户陷入选择焦虑。并且,之后言犀将重点引入京东基于基础模型打造的行业模型应用,如零售、健康场景以及在实际上已经实现规模化落地的行业应用模型放到平台上,帮助平台的开发者来推进相关业务的落地。目前言犀共有三种方式交付方式:一是 MaaS 服务形式,开发者开发者可以通过 API 采用按量付费、成本经济的方式探索和使用大模型;二是,公有云 SaaS 版,用户可以通过平台提供的一站式模型开发、训练和部署的能力,基于公有云资源弹性供应的优势,以最小化的成本启动产业大模型的开发和部署。三是私有化交付版本,满足对数据安全有更多特殊要求的客户,数据完全本地化。未来,言犀还将继续升级平台能力,在国产硬件覆盖、模型生态合作、插件开发、应用评测服务、一体机交付、Agent 开发服务等方面继续完善,体系化地帮助解决产业大模型的开发和实施困难、大模型应用的开发困难、模型训练推理成本昂贵、模型和应用获取困难、高性能计算、高性能文件、异构硬件的使用和适配困难等问题。在西安城市大会上,京东集团技术委员会主席、京东云事业部总裁曹鹏在演讲中提到,在大模型逐渐向产业落地的过程中,希望做到提升更好的产业效率、产生更大的产业价值、能够在更多的场景里复制,实质上是对模型的训练过程以及基础设施提出了更高的要求:模型需要更加易用、要做到更低门槛更低成本、并且可以灵活调用算力。AI 开发计算平台是解决这些问题的重要方案之一,一个高性能且易用的 AI 开发计算平台能够让更多行业方低成本地参与到大模型行业建设当中来,激发更多产业大模型的出现,加速大模型在千行百业的落地。在实际的市场中,龚义成称,行业客户在选择 AI 计算平台时,主要会考虑的亮点分别是:行业理解以及平台效率。相比于其他 AI 计算平台,言犀 AI 开发计算平台除了能够提高极致的性能,还能够结合京东长期以来在零售、金融、物流、健康等优势场景的经验,拥有更专业的产业大模型选择。在言犀 AI 计算平台的模型生态中,除了内置优秀商业模型和开源模型,为了进一步降低门槛,言犀 AI 计算平台还会为这些大模型补充进一步的增强能力,比如中文能力、数学能力等等,让用户能够选择更易用专业的大模型。更重要的是,由于言犀 AI 开发计算平台同时面向大模型应用开发者,支持无代码的方式构建专有模型,除了上述基础模型外,在言犀平台还将为用户提供更多应用场景的专有模型,供用户快速在自己的行业落地。目前,言犀平台所提供的应用场景专有模型主要包括问答开发以及文档分析开发等成熟高频场景。这些应用京东在自身的优势领域已被多次验证,结合大模型能够快速提升效率。以对话工具为例,2021 年起,名创优品和京东云达成合作,将京东云旗下言犀在客户服务方面的系列技术产品应用在名创优品,涵盖名创优品门店客服团队、用户运营团队、IT 服务运维团队。2022 年 4 月,言犀系列产品陆续上线,包含了在线客服机器人、语音应答机器人、语音外呼机器人、智能质检、智能知识库等一系列智能化产品,带来了显著的成效。 反馈数据显示,目前言犀系列产品日均咨询服务量近 10000 次,其中在线客服机器人应答准确率超过 97%,独立接待率超过 70%,降低 40% 的服务成本;语音应答机器人应答准确率超过 93%,独立处理了 46。1% 的客户问题;智能质检累计完成数十万次,发现并处理近 3000 服务风险问题,用户满意度提升 20%;智能知识库内容涵盖了「名创优品」品牌下约 8800 个核心 SKU,以及「TOP TOY」品牌下约 4600 个 SKU。 在大模型的落地实践进程已经到了从单点向外普及的阶段。在产业中,还有许多类似名创优品的产业公司,对话机器人场景能够为他们带来更大的价值。而言犀 AI 开发计算平台的推出,从底层算力、数据管理、无代码应用等全链路对产业公司的赋能,将为这些公司提供一个更更低门槛更低成本、更短训练周期的大模型产业化方案。可以预见,之后类似名创优品的案例将会出现得更加频繁。此外,京东云方面强调,相较于其他其他竞品,京东言犀 AI 计算平台采用的低代码方面进一步拉低了应用开发者的开发门槛,且高性能存储方面完全自主、整体技术体系完整适配度高且性能效率高。随着新型数字基础设施的普及,大模型在千行百业的落地将变得更加快速,成本效率与创新的不可能三角将拥有更开阔的想象空间。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]