京东言犀大模型,离不开数智供应链|甲子光年
接下来,就看美团和字节的行动了。
作者|刘杨楠
编辑|栗子
时隔半年之后,京东大模型终于来了。
7月13日,在2023京东全球科技探索者大会暨京东云峰会上,京东云终于正式发布了面向垂直行业的言犀大模型,并发布了配套的言犀AI开发计算平台。
今年2月ChatGPT大火之后,国内其他大厂还没反应过来,京东就宣称要做“产业版ChatGPT”,但随后却没了声音。经过半年的发酵,业内对大模型已经形成基本共识——通用大模型不是模型应用的唯一方向,面向垂直产业的模型会成为大模型价值的引爆点。
“专有模型、垂直行业模型的训练成本和难度其实并不低。因为行业模型并不意味着小模型,也不意味着单独某一个领域的数据,而是通用公域数据加上行业数据一起,构成了产业大模型的训练数据来源。”京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬此前对媒体表示。
这个思路也预示着,言犀大模型和京东打造多年的数智供应链有着深度绑定。
1.言犀大模型的四层架构
京东集团技术委员会主席、京东云事业部总裁曹鹏首先发布了言犀大模型。
据介绍,2021年,京东便开始着手搭建大模型团队;到了2022年,言犀大模型已经达到百亿参数规模。而今天发布的言犀大模型,参数规模已达千亿。
言犀大模型具备基础层、模型层、MaaS、SaaS四层体系:
其中,基础层提供公有云、专有云、混合云三种云计算部署方案。
模型层,言犀大模型的数据构成中有70%通用域数据、30%的数据来自京东数智供应链的产业数据、代码数据、多语言数据。京东数智供应链已经服务超千万商品SKU、800多万家活跃企业客户(其中世界500强企业超90%、全国专精特新中小企业近70%)、全国2000多条产业带,这些场景的真实数据都是其他公司难以短期复制的数据资产。
算法层面,言犀大模型采用分布式训练框架(Megatron+DeepSpeed),京东自研向量数据库Vearch为大模型提供长期记忆。据介绍,京东在2020年便注意到,基于Transformer架构、注意力机制训练的大语言模型存在“一本正经地胡说八道”的情况。当时,京东便开始研究自己的算法,提出了知识注入的预训练语言模型(K-Plug),并在2021年发表论文。
MaaS层,基于言犀大模型解耦出的底层能力,京东推出了“言犀AI开发计算平台”,内含多个行业知识库,包括零售、物流、健康等十余个产业Know-How,为企业提供百余种训练和推理优化工具,支持以少量企业数据精调出客户专属模型。
会上,京东工作人员现场演示了该平台将一个通用大模型转换为健康产业大模型的全过程。据现场介绍,模型训练过程仅需几个小时即可完成,部署过程仅需几分钟,整个过程推理成本可节省90%。完成部署后,平台会生成一个API供客户使用。
整个演示过程中,操作人员几乎全程采用“傻瓜式”操作,找到相应的菜单目录,点击需要的选项即可完成操作。以往,客户要完成这套流程,从数据准备、模型训练到模型部署,需要10余名科学家花费一周时间才能搞定。
SaaS层则主要聚焦大模型的高可用性。据了解,京东现已将大模型能力融入京东零售、金融、健康领域等成熟的业务产品中,具体如智能客服、多模态数字人、交互式营销、智能政务热线、协同办公等,即使欠缺AI基础能力的传统企业也能开箱即用。
目前,言犀大模型已经在金融、健康、物流、营销、内容生成、数字人六大内部场景落地实践。
此次发布会上,除言犀大模型外,京东云的三个核心产品也迎来升级:全新升级的混合多云操作系统云舰,将GPU/NPU的资源成本降低50%,并提供行业最高的业务连续性承诺;高性能存储平台云海,将单集群每秒读写性能提升5倍,达到千万级;时延降低50%,达到百微秒级;使用成本则降低30%;软硬一体的虚拟化引擎京刚,将虚拟化卸载到智能网卡中,虚拟化损耗降至0,网络性能提升高达4倍,并支持100Gb VPC网络,云硬盘单实例性能突破百万IOPS。
值得注意的是,京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬在演讲最后放出了一个“小彩蛋”,公布了京东在具身智能方向的局部成果。
在现场播放的视频中,何晓冬直接和一只集成具身智能的机械臂进行了多轮对话,机械臂则在接收到消息后,流畅地帮何晓冬接了一杯咖啡。
如今,具身智能无疑是人工智能领域最具有想象力的新地标。虽然仅凭现场播放的demo让人很难完全看到京东在具身智能方向的真实实力,却也吊足了观众的胃口。
2.大模型产业落地的“新三要素”
“大模型是实现产业价值的工具而不是目的。”京东集团CEO许冉表示。许冉进一步表示,产业数据和行业Know-How,是言犀大模型的两大核心优势。
基于这个底层逻辑,京东提出了一个大模型的价值评判公式:
大模型的价值=算法×算力×数据×产业厚度的平方。
拆解来看,数据方面,互联网的公开数据大多为静态数据,但如果企业要让模型有更强的动态交互能力,比如人机对话,多轮博弈等能力,现有的偏静态的数据则很难满足。
因此,“活”的场景数据往往来自于场景中的Know-How和交互数据。目前,京东在零售、物流、健康、金融、工业品、客服、采购、营销等环节已经形成了一条完整的数智供应链,每个环节积累的数据都为言犀大模型的训练提供了大量场景真实数据。
算法方面,何晓冬认为单点算法不足以撑起新的大模型。
ChatGPT的出现在全球人工智能领域开启了一轮产品层面的竞争。OpenAI以谷歌的Transformer架构为基础,训练了GPT系列模型,经过多次迭代,最终以对话机器人的产品形态推出ChatGPT,引爆了这次大模型的商业竞争潮。回看整个过程,某种意义上,AI企业之间单点算法的竞争已经逐渐转变为技术体系和产品形态的竞争。
“一旦你拿出一个产品,对手可能很长时间才能追赶上,产品会直接影响用户体验,形成用户心智,形成以后再想扳回去就不容易了。”何晓冬表示。因此,通过产品牵引成体系算法的创新和突破,将比原来单点的算法突破更重要。
算力方面,以往单卡算力的比拼已经在向集群算力比拼转变。如今,大模型不可能在单卡上训练,必须跨多卡多机训练。
基于以上分析,京东提出了大模型产业落地的“新三要素”:场景、产品、算力。即复杂的交互智能场景及其产生的动态数据、从单一算法竞争到形成可以牵引成体系算法创新与突破的产品和能支撑这样的场景与系统的新型算力。
会上,京东还公布了言犀大模型将实施“三步走”战略:目前,京东云已经基于内部实践构建了通用大模型;到今年年底这段时间,京东将经由高复杂场景大规模锤炼,迭代出扎实的产业服务;预计在2024年初,会将大模型能力向外部严肃商业场景开放。
以目前的进度看,京东的“三步走”战略已经过半。或许等到明年,京东正式将言犀大模型的能力面向产业场景全面开放时,真正的挑战才会到来。
3.京东奔向技术的六年
2017年京东战略会上,刘强东高喊“技术、技术、技术”的战略,给整个京东集团下了三道以技术为核心的“KPI”——解决京东内部大规模人力效率问题;组件化、模块化技术服务对外输出;对前沿技术进行探索。
5年之后的今天,“技术、技术、技术”的战略依旧未变。
2017年年底,京东成立人工智能研究院。过去几年,京东人工智能研究院陆续纳入了几员大将。据媒体报道,当前,京东AI研发团队主要成员为何晓冬、吴友政、张政臣和陈蒙。
其中,何晓冬算得上是京东AI研发团队的灵魂人物。
何晓冬2019年入选IEEE Fellow,在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的首席研究员和负责人,主要研究方向聚焦在人工智能领域,包括深度学习、自然语言处理、语音识别、计算机视觉、信息检索和多模态智能等。他曾发表100余篇论文, 谷歌学术统计引用数过万次。2018年,何晓冬加入京东,从0到1打造了言犀人工智能应用平台和系列产业解决方案。
吴友政目前担任京东集团高级总监和京东科技语音语言算法部负责人。自2006年中科院博士毕业后,吴政友先后在日本国立信息通信研究机构、英国爱丁堡大学等机构从事自然语言处理相关研究工作。工作主要聚焦自然语言处理、人机对话、语音识别、机器翻译等技术研究和产品研发工作。
张政臣现为京东语音合成产品负责人,先后工作于新加坡科技研究发展局和京东。2018年7月加入京东以来,他作为主要参与者参与了京东语音合成产品研发和销售的过程。其产品已经在言犀智能客服,京东金融、京东直播、京东智能音箱等内外部客户大规模应用。
陈蒙现为京东科技人机交互技术部负责人。2018年5月加入京东,现任京东科技人机交互技术部负责人。加入京东后,先后打造京东科技两大旗舰型产品-京小智和言犀的核心算法引擎,所研发的人机对话产品服务于京东的商家和用户。
就在研究院成立三年后,京东“技术、技术、技术”战略布局和成果也逐渐浮出水面。
2020年,京东自研全栈AI技术,在JDD大会上正式发布言犀品牌。
同年11月25日,在JDDiscovery-2020京东全球科技探索者大会上,京东宣布成立京东探索研究院,未来将面向全世界延揽顶级人才。京东探索研究院号称涵盖“人工智能”“量子计算”“数据科学、工程与管理”“去中心化计算”“伦理道德”“科学与艺术”六大数智技术领域。
2021年3月,陶大程在京东的邀请下出任京东探索研究院院长。陶大程带队京东探索研究院后,并不局限于学术研究,而是尝试了许多可落地技术,如可信AI、“产业元宇宙”等。
但今年3月,陶大程不再担任京东探索研究院院长。院长一职由何晓冬接任。
当时,对于陶大程离开的原因,外界有人猜测:随着行业的探索深入,加上ChatGPT所代表的数字生成后浪将元宇宙前浪拍倒在沙滩上,产业元宇宙开始出现门槛高、投入成本大的短板。
不过,京东及时给予了官方回复,称陶大程教授离开是个人意愿,产业元宇宙产出Omniforce仍是集团重点科研项目。
真实情况到底如何,恐怕只有京东内部人员才知晓。不过,从外部来看,从2017年刘强东高喊“技术!技术!技术!”的战略口号开始,京东一直在努力向技术的最前沿方向靠拢。
必须承认,如今的京东无疑已经反驳了早年间外界对京东技术薄弱的质疑,但和站在技术金字塔尖的企业相比,京东在技术上无疑还有更长的路要走。
如今,京东包括言犀大模型在内的全套技术体系都与其深耕20多年的供应链体系深度捆绑在一起。从这个角度出发,在产业大模型这条路上,京东依然未来可期。
在京东发布言犀大模型后,几家大厂布局大模型的思路已经逐渐清晰。接下来,就看美团和字节的行动了。
END.
微信扫码关注该文公众号作者