是全部重做还是融合改造?揭秘京东云言犀升级全过程
ChatGPT 到来后,NLP(自然语言处理)这一行就有了一个梗儿:“一夜醒来,专业没了。”
NLP 是人工智能的一个子领域,指的是机器能够理解并解释人的写作或说话方式的能力,也是整个 AI 领域皇冠上的明珠,是 AI 领域最难、最前沿的事情。业界有说,至少五年工龄才算入门,做到得心应手也得小二十年时间,这也是不同于其他领域的地方。
令人惊讶的是,这个艰深的领域,如今不断迎来技术变革。大模型的到来,更是让一些底层 NLP 任务不复存在。而这种变革也在以前所未有的速度卷到工业界。客服行业一直被认为是大模型最好的落地场景之一,而大型电商平台的智能客服早已打磨得十分“圆滑”。当新技术进入到一个成熟的行业,会产生哪些变化?
NLP 一直以来都缺乏“杀手级”的应用和商业采用,从其历史发展历史可以分为两个阶段,前半段主要集中在“机器翻译”的发展,而后半段则伴随着互联网的蓬勃发展,涌现出一些尝试推出新产品的企业。
然而,由于技术难度极高,应用场景极为复杂,这个领域的企业始终面临一个落地难、挣钱难的状况。典型的例子是,作为中国 NLP 初创公司的一个发展样本,追一科技倒在 GPT 大模型的狂潮到来前;去年底,亚马逊裁员万人对 Alexa 团队影响巨大,同时,谷歌也减少了对 Assistant 的投资......
这一系列事件反映出 NLP 领域技术创新与落地应用之间的不断博弈。智能客服的落地也是一样充满挑战。为了降低成本,一些组织希望引入客服机器人来代替人工,然而智能客服拟人度不够,所以很多企业,他们甚至在早几年尝试引入了客服机器人以后,很快又放弃了,就是因为他们被服务体验不足问题给吓退了。
成本、效率与体验总是矛盾?在京东云言犀的介入后局面有所改变。
近两三年,京东云言犀与包括大同、芜湖、东莞、保定等 10 余个城市合作打造了智能政务热线的大规模落地。接入言犀的大同 12345 政务便民热线接通率提升至 100%,只要有电话进来,言犀就能够 24 小时不间断地接听电话。而且有市民知道接线员是智能语音接待机器人时,非常惊讶:“万万没想到,我说大同话机器人居然能听懂!”而且机器人态度很好,能听出电话那头“很着急”,“还安慰我说不要着急。”
打造出这个智能化产品并能落地,京东花了十几年,在泛客服领域沉淀出了一支由三四百人组成的智能服务团队,涵盖了包括 NLP 算法、产品开发和工程交付在内的多个工种,其中不乏一二十年的老 NLP 人。
言犀平台的打造过程,也可以划分为几个阶段。
最初在 2012 年的时候,京东客服一年内规模翻了数倍,为了分担人工接线压力,京东成立了智能客服项目组,研发出了第一代机器人客服 JIMI,功能相对简单,只能查询订单和物流情况。但将在线机器人用到大规模的电商场景中,京东是第一家。在这个阶段,能得到落地的机会,得益于企业给予团队的宽松探索环境,不怕走弯路,愿意让团队试验跟其他企业完全不同的方式。
2017 年,深度学习技术爆发,智能客服团队重构了这一套机器人,开始大力发展“无人客服”,该客服平台逐渐承接了自营业务 60-70% 的咨询量。这个阶段,京东也开始大力发展自己的 AI 技术,团队引入了一些更加专业的、世界级的科学家。他们带来了更先进的算法,让无人客服在原来的基础上增加了情感的分类,因此智能客服不仅学习了不同地区的方言,还能辨别人的情绪,这也是业界第一个大规模落地的商用智能客服。
京东客服中心,从最开始的上百人,到 2012 年上千人,这么多年人数随着业务不断增长,到现在已增长至上万人,需要不断发展和提升智能客服的能力去分摊压力,也需要有智能管理平台去提升客服管理的效率。在这个时期,团队进一步将视野放大,除客服机器人之外,还有了面对 C 端的数字人咨询客服、直播数字人,并且涌现了新的产品形态,即客服管理,智能质检、智能培训、智能分析平台等。
在满足了自有客服体系后,京东智能服务团队于 2019 年开始了商业化进程,并不断吸纳人才完善团队能力,形成了一支懂算法、能交付的“标杆团队”,智能服务开始对社会产生更大的价值,特别典型的就是和各地政府的 12345 城市热线合作。通过技术与服务的深度耦合,目前东莞 12345 热线咨询类直接解答率达 99.4%。
在智能客服行业都在争分夺秒地赶上“大模型”这趟列车的时候,京东已经开发出来了言犀大模型及配套客服产品,在内部投入使用,在客服中心取得了很好的前期试验成果,在今年的京东 11.11 中也发挥了巨大价值。
人工智能发展时间非常长,从上个世纪五十年代到现在已经 70 多年的时间,有非常多的里程碑的节点值得大家去梳理。然而像 ChatGPT 这样和应用结合的这么紧密的大的技术突破,以前是没有的。每次突破都会更大一些,也是站在之前的技术的基础上做的。
对于京东这样一个大企业来说,这样的技术肯定是必须要主动积极跟进的。早在 2018 年,一批顶级的科学家加入京东后,就开始主导底层大模型的研发。目前言犀平台依靠这五年来在大模型上的积累,在今年 7 月正式发布千亿级的言犀大模型,旨在服务真实业务场景,在产品革新上,发展出了下一代智能客服,即第四代智能客服。这一系统也汇聚了内部和外部的各方期望,可以说是“全村人的希望”。并且,大模型客服已在京东有了一些使用,取得了一些成效。
一方面是用大模型提升 C 端的体验。人机对话在当前一些应用场景中发挥了巨大的价值,尤其是大促等流量高峰时段。通过阶段性的试验,这部分服务指标有比较明显的提升,言犀 KA 产品负责人介绍,“我们在一些环节转人工率会有明显的下降,甚至有十几个点的下降。”
另一方面,大模型可以进一步提振 B 端应用创新,比如数字人和客服管理的效率,这部分甚至可以说是大力投入引入,并取得了实际成效。目前,言犀虚拟主播已经入驻超 4000 家品牌直播间,在京东等多平台都可以大规模使用数字人带货了,包括国台酒业、联想、伊利等这样的大品牌都有积极尝试。商家在直播后台上传商品链接,大模型技术驱动的数字人便能够“阅读”商品详情,找到关键的规格、卖点等信息,自动生成真实、生动、可阅读性强的直播文案,数字人还能接受咨询、提供导购、灵活互动......
对于客服产品来说,大模型具有变革的力量,言犀 KA 产品负责人表示,“我们真的认为大模型会给未来业界带来很多的颠覆,一方面是用来解决上一代智能客服产品遇到的瓶颈问题。大模型的引入就好象注入‘活水’一样,能够把我们过去卡住、挂起来的用户体验上的问题,拿出来重新梳理并有望解决。另一方面,我们看到了一些服务模式、管理模式上的新机会,可能未来是通过人机协作的形态,有望优化这个行业多年的工作模式,这是一件让业界能兴奋起来的事情。”
还有一件值得一提的事情是,大模型改造后的客服可以成为一个企业的“大脑”。客服是企业接触顾客最直接,也是最重要的一个通道,对于顾客、对于市场所有的判断,没有任何一个数据来源会比客服中心的数据更合适。因此所有的企业,都会希望客服中心能够为企业的市场决策,为企业的体验升级,为用户服务升级。通过源源不断输入客服中心的观察分析,驱动企业进行优化。这是一个一直以来没能实现的愿景。而现在,通过目前的初期试验,至少能够看到这个问题的曙光。
“通过客服中心来驱动企业整体服务体验评估、服务体验管理,这其实一直是各行业的梦想和愿景。”“我们设想的愿景,还没有做得那么好,现在有了大模型,我们觉得能够利用大模型的能力,在将我们觉得效果不太好的场景里,长期持续地围绕大模型来做一些优化。”
那么利用大模型的智能客服,会冲击甚至取代之前经过十多年打磨出来的智能客服产品吗?特别是业界还有一个“大模型推翻了传统的 NLP 技术”的说法。
京东云言犀团队里资深算法专家认为,大模型对一些传统技术确实有影响。因为 LLM 之前的模型几乎全都是专项的,任务越窄,表现越好。对于更通用、泛化的任务来说,大模型带来的效果确实是颠覆性的。拿情感分析来说,如果只是分一些正向情感、负向情感、中性情感,这样的任务上,用深度学习的方法需要有足够的标注数据。但大模型来了,就不再需要大量的标注数据了,直接判断就能达到想要的效果,和之前经过深度学习调优训练出来的效果,基本上持平。
而且在理解的任务方面,很多传统的任务,大模型出来之后,确实不存在了,比如说摘要的任务,切词、分词这些中间任务。但放到客服领域来看,构建一个产品需要的并不只是理解的能力,还有推理的能力,比如说数学的加减法,大模型还不能进行精准的计算。在真实场景下,还会有一些比数学计算复杂很多的任务存在,现在大模型是解决不了的。
因此,在智能客服的场景里,用户上线后,为了减少用户的费力度,智能客服会事先猜测用户大概想咨询什么问题。这个实现方式是根据用户各种各样历史的行为,比如说订单各种各样的状态,在页面上各种搜索点击的状态,以及个人用户画像等等综合信息,来判断用户当前可能会咨询什么。这样推理的问题直接交给大模型,它是很难做到的。
虽然单纯 NLP 的理解任务,大模型很多任务能做到最好的效果,但考虑到成本的问题,其中一部分任务和之前相比也没有提升那么高,大概率也不会全部都换到大模型上面去。除了理解类任务之外的,还有很多任务可能是用传统的方法,基于一些人工标注的高质量的数据能达到的效果,而这些效果是大模型目前达不到的。
所以,对于是否会取代以前的产品,言犀 KA 产品负责人的看法是目前并不是完全替代的关系。他进一步表示:“第四代智能客服是在前面的基础上进化的,引入大模型主要用于分析环节,对于分析之外的很多能力还是会用到第三代已经构建好的很多工程基础。”
举例来说,通过分析平台,可以发现某位顾客对今天的咨询非常不满意,原因是货物配送错误,将货物发送到了错误的地方。分析平台能够快速识别这个问题并理解顾客的需求,例如重新发货和赔偿。这种能力在引入大模型后能够迅速被构建起来。但是,更深入的问题诊断需要利用第三代(即应用深度学习技术的)智能客服已经建立的基础。例如,要查明订单最初应该送到哪里以及出现错误的具体环节,可能是在收货环节出了问题,也可能是在中转过程中发生了错误。
“在这些后续环节中,与第三代相比,我们会大量复用已经建立的能力基础。因此,可以理解这是一种平滑升级的能力平台,而不是完全替代的模式。”
第四代智能客服落地主要分为底层大模型和上层应用。
底层大模型方面,并不能是通用的模型拿来就能用,言犀大模型面向知识密集型、任务型产业场景,解决真实产业问题,天然为零售、金融、物流等京东优势场景打造。而针对具体场景进行调优,基础模型训练和推理有专有技术团队来打造,推出了言犀 AI 开发计算平台。京东言犀大模型的一个优势就是部署成本低,该团队将部署成本降至了传统的 1/10。
降低成本一个靠的是模型量化,从浮点压到 4bit、8bit,这是比较复杂的过程,因为压缩的时候会带来精度损失,怎么减少损失,保证推理效果不降,这是核心的技术。另一个是算子拆分,Transformer 最核心的单元是多头注意机制,它有一系列的算子来算注意力权重,怎么把算子做的更加优化,这一块也是对提升速度有很大的帮助。还包括参数矢量的量化、内存优化、缓存等手段。“成本是非常严肃的问题,尤其是 toB 的时候,每一分钱都很重要。”
进入新时代后,虽然算法是至关重要的因素,但现在竞争已经不再局限于算法这一单一因素,而是在于一个完整的技术和产品生态系统上的竞争。产品质量直接影响用户体验,塑造了用户的心智,一旦形成,要想改变用户偏好就变得困难重重。
业内专家曾经阐述过一个观点,将大模型的竞争类比于搜索引擎,从搜索引擎的历史发展可以看出,我们可以将这个竞争划分为两个方面,即产品和技术。从技术角度来看,搜索技术迅速扩散,几乎所有垂直领域都有与之相关的搜索应用,例如美团、京东、小红书等。然而,搜索产品往往只有一个主要巨头,最多两个。搜索作为产品具有强烈的马太效应,用户本身成为了竞争壁垒,而不是技术本身。ChatGPT 也面临着类似的情况。对于京东来说,大模型率先落地的产品就是智能服务系列产品。
至于这些上层应用,不管是针对具体的任务调优,还是针对相对更通用的一个模型来端到端解决所有问题的模式,也需要针对这些任务来不断打磨大模型。
以前要做好这样一个系统,其实是要把整个对话流分成很多很多,几十个、几百个模块,每个模块负责不同的任务。但大模型方法通常是端到端的,基本上是一个模块,输入一句话,输出一句话,相对比较简单。
然而在实际应用中,通常并不是我们想象中的端到端的这样一步到位的方式,而是基于现有系统中的一些效果不太好的点,针对这些点,逐个将对应的模块结合大模型进行优化,能把现有的效果进一步提升。
智能客服更多的时候是处理一些查询和办理任务,需要与现有系统进行交互,比如大模型在问答场景下要转人工时,需要知道转到什么样的技能组里面去。所以怎么和原有的系统结合,怎么和上下游的系统结合,怎么和内部的各种系统来打通等这些问题,都需要花费比较多的时间去梳理。
在这种技术架构 下,整体的堆栈不会发生巨大变化。但融入大模型之后的架构,从头到尾的复杂度相比之前也会减少一个数量级。总体而言,这个架构实际上是一个“减法”的过程,旨在优化和整合现有系统,以更好地融合大模型的能力。
除了按模块进行优化之外,智能客服团队还探索性的进行重构,希望重新基于大模型来打造整个系统。这也意味着要放弃当前的框架,采用一种全新的思路,以达到让运营人员投入更少、C 端用户感到更加流畅且效果更好的目标,实现一种终极的系统形态。
从产品架构来看,京东的重构计划涉及到改进人与人之间的自然语言交流过程。
对于智能问答系统,目前的问题在于首先需要识别用户的意图。在京东,用户的咨询问题有上万个不同的类别,例如价保、退货、订单修改等等。智能客服系统需要首先识别用户每句话所属的问题类别,然后整理与该问题相关的知识。每当用户提出问题,系统会将问题映射到相应的知识点,然后提供相关的解决方案。
这对于 B 端来说是一项极具挑战性的工作,因为需要建立大量的知识库,而且每个知识点都需要详细梳理,有时候梳理起来非常复杂。举例来说,考虑催单这个场景,如果用户询问订单的位置,系统回应后用户表示未收到,这时系统可能需要建议联系门卫或家人是否已经代收。这只是一个小小的示例,实际上知识库中的内容是无穷无尽的,因为梳理知识的成本很高。如果知识梳理不全,应答的效果就不会很好。
我们可以将这种交流比作两个人互相对话的过程,从听到一句话到做出回应,大脑中的思考过程是复杂而难以明确的。大模型的工作方式更像是这个过程的模拟,不再要求人们进行繁琐的知识整理,而是直接将原始知识提供给大模型。这包括所有与京东相关的帮助文档、政策文件、甚至历史咨询的对话记录,包括客服和人工接待的会话日志,全部交由大模型处理。基于这些知识,大模型可以直接回应当前问题。从 B 端的角度来看,以前需要逐一整理各种场景下的知识,而现在只需要收集数据,可能需要进行一些简单的数据清洗,但整理知识的成本大大降低了。
为此,言犀沉淀了 4 层知识体系、40 多个独立子系统、3000 多个意图以及 3000 万个高质量问答知识点,覆盖超过 1000 万种自营商品的电商知识图谱,用以提升任务型对话技术能力,保障可用、可控、可信的智能对话体验。
从 B 端的角度来看,重构能够实现成本降低和效率提高,需要的投入将大大减少,而大部分工作将交给大模型来完成。
精度提升问题通常涉及编造问题,大模型会一本正经地胡说八道,这也是大家将大模型应用到生产时关键挑战。
京东早在 2020 年就已经意识到 Transformer 技术生成的文案往往给人一种似是而非的感觉,虽然生成的文案表面上看起来很流畅,但实际内容存在问题。京东很在意这个事情,因为文案生成在电商领域被广泛应用,包括广告、推荐和新品介绍等各个方面。
因此,自 2020 年起,京东团队开始着手研究改进这一问题,并提出了一种称为“知识注入”的预训练模型——Kplug,使文案更有忠实度、可信度和可靠度,然后还将大模型聚焦到“产业”中去调优,最终将其成功集成于言犀人工智能应用平台中。一般生成式语言模型生成的内容正确率是 83%、85% 左右,十个问题错一两个,一般 toC 用户用起来觉得还可以,但是商用是不可接受的。为了达到商用水平,京东将预训练模型正确率提升到了 95% 以上。
为什么大模型有的时候会出现幻觉问题呢?京东云言犀团队里资深算法专家 认为根本的原因是大模型底层技术原理导致的,大模型是基于历史经验来生成当前内容。这一原理下,大模型往往难以处理特别个性化的问题,尤其当缺少相关领域经验时,这一问题会更显著。
在一些主观性较高的场景下,如创作较泛泛的文章,大模型表现得相对良好,因为这些情境较为主观,没有绝对的对错之分。然而,在严肃的场景中,哪怕很简单的对话,比如用户问客服自己昨天下单的苹果手机今天什么时候到,意图清晰,非常简短的问题,ChatGPT 是回答不了的,它需要跟整个业务系统串起来,需要跟订单系统、物流系统等都串起来才行。
言犀团队解决知识缺失问题主要分为两个阶段。第一个阶段是在初期学习时,要确定使用的语料和数据是否包含相关领域的知识。例如,像 ChatGPT 使用各种数据,但在零售领域,具体商品型号属性的数据相对较少,因此在这方面缺乏知识,容易编造信息。为了解决训练数据问题,京东聚焦于训练产业大模型,其中的关键在于使用多年来积累的与商品相关的数据,供大模型学习。京东训练产业大模型训练时融合 70% 的通用数据与 30% 数智供应链原生数据,包括零售、物流、健康、政务等领域的数据。尽管这些行业数据通常不在公共领域,但对于积累深度行业知识至关重要。
第二个阶段是即使拥有丰富的知识,当有新产品推出时,例如此模型截至到 2023 年 6 月生成,对于在 2023 年 6 月之后推出的新产品,如何生成其文案,仍可能出现编造问题。解决知识更新的问题,言犀团队并不是直接将商品输入给大模型并让其生成文案,而是将商品的知识属性和卖点提供给大模型,并要求大模型在此基础上进行润色,以提高精度。更多地,大模型需要在预训练阶段就具备与特定领域强相关的知识,在这个基础上,在真正生成文案时再根据具体任务进行知识更新,以确保不出现编造信息的情况。
在产品层面,言犀团队也根据不同场景进行了优化。目前比较有效的方式是按模块逐一优化,单独为每个任务启用大模型并进行独立调优。针对面向 C 端产品,提高精度主要依赖现有的专家系统,用专家系统确定系统中存在的主要问题,然后再根据问题调优模型。这意味着客服团队需要为业务定制和调整模型,以提高效果。而对于面向 B 端的应用,如人工客服,则是通过数据的回流和轮转来改进模型。首先使用大模型达到可用的效果,然后在上线过程中,根据 B 端用户的反馈和行为,不断迭代和提升模型效果。这样可以实现持续提高准确率和各项效果,达到 80% 甚至更高水平的目标。今年京东 11.11,京小智、数字人、AI 外呼等产品也接入了言犀大模型,不仅帮助品牌商家降低成本、提升效率,也给消费者们带来了全新的体验。
京东云言犀技术团队的初衷始终如一,就是希望在严肃场景下让大模型产生价值。京东最初的出发点是利用智能客服解决内部痛点,减轻客服负担,提高营销效率。但他们也希望自家技术能深入到社会和经济领域,产生普惠价值。
在 ChatGPT 出现之前,为了降低成本,电商、金融、政务行业已经在广泛使用智能客服替代人工客服。有研究报告指出,国内现在有 88.2% 的企业拥有客服业务。但它们在引入客服机器人来做智能化服务时,又存在一个很核心的矛盾,即大多数企业或政务行业都希望用比较低的成本进行运营,最多只能投入几个人的人力,所以难以打磨精致,机器人的体验难以达到大型电商智能客服的水平。京东希望能利用大模型最终实现用很少的运营成本达到满意的效果,从而让需要客服的行业都能受益。
大模型风行一年多,创业新秀们都有哪些故事?实际落地中,软件产品中的 AIGC 能力又如何?本期《中国卓越技术团队访谈录 & 架构师特刊》中,LeptonAI、智谱 AI、Dify.AI 和京东云言犀团队深度分享了他们的创业思路和产品经验,来自网易、百度、广推科技等企业的技术专家,也深入探讨关于 AIGC 编程、算法及应用等话题。
现在识别图中二维码即可下载电子书,查看更多、更详细的精彩内容!
《研发效能 100 问》全册重磅发布!
22 位效能专家联合打造,解答研发效能领域 Top 100 高频问题!
拥有它,让你在研发效能提升之路上事半功倍!
扫码或点击【阅读原文】免费下载!👇
微信扫码关注该文公众号作者