对话式AI落地最难的一道题，在京东云被这些科学家搞定了

2022-07-15 05:07

机器之心报道

作者：蛋酱

与你对话的智能客服，可能比想象中更懂你。

2012 年 10 月的一天，Geoffrey Hinton 发送给邓力一封邮件，提到了自己最近在做的一项工作。与往常不同的是，Hinton 在邮件正文中使用了「look at this huge margin!!!」这样的描述。

这项研究成果就是大名鼎鼎的 AlexNet。在当年的 ImageNet 挑战赛上，AlexNet 将图像识别的错误率从 26% 直接降低到 16%，一战成名。

现在看来，这个成果就像是破晓时分的第一缕阳光。人们对深度学习的质疑自此打消，AI 的第三次发展浪潮终于到来。

Hinton 和邓力在深度学习方面的交流其实始于很久之前。2008 年的 NIPS 大会，时任微软研究院语音研究首席研究员的邓力和同事何晓冬在温哥华举办了一场语音语言研讨会，邀请过 Hinton 来做报告。但当时的深度学习始终缺少具备说服力的成果，尚不被看好。

之后，邓力多次邀请 Hinton 到访微软交流。同时，邓力和微软的同事开始尝试将深度神经网络应用于语音识别领域，在 2012 年于天津举办的「二十一世纪的计算」论坛上，微软全球技术副总裁 Richard Rashid 演示了用深度学习进行语音识别，相比之前的语音识别系统错误率降低 30% 以上，引发业界轰动。

语音、语义、视觉等领域的突飞猛进，展示出一种希望：以往那些尚不可用的人工智能技术，在不久的未来就能真正为人类服务。

Hinton 最终选择了谷歌，但微软研究院陆续诞生了一系列最具影响力的早期成果，也造就了一批知名 AI 学者。

提到深度学习领域，微软的邓力、俞栋、何晓冬都是最早一批入场的人。在密苏里大学哥伦比亚分校取得博士学位之后，何晓冬就加入了微软。

邓力与何晓冬。

2013 年，何晓冬、邓力等人提出了深度结构化语义模型 DSSM （Deep Structured Semantic Models）。这一模型在工业界的适应性是前所未有的，至今几乎所有做搜索推荐场景的大厂仍在使用 DSSM 及其衍生模型。

大洋这一边的中国，也正在经历一场巨变。移动互联网的高速发展，衍生出大量的数据以及丰富的应用场景。京东就是极具代表性的企业之一。

2018 年，何晓冬选择回国，加入京东。从全球范围内来看，京东在人工智能技术上不是起步最早的企业。但和其他公司不同，京东的 AI 技术从一开始就脱胎于大规模的产业实践，带着明显的「产业烙印」。

这正是推动何晓冬选择京东的关键因素。

走到产业的「最深处」

何晓冬一直认为，「AI 本身是个科学问题，其实也是个应用问题。」

微软在 2014 年专门成立了深度学习技术中心（DLTC），展开了一系列探索性研究。如今的热门方向「多模态深度学习」，就是在那个时候启动的。围绕微软的 MSCOCO 数据集，一众大学和研究机构尝试教会模型用一句话来描述一张图片。

2015 年，何晓冬在 CVPR 大会上介绍了 DSSM 升级版本——DMSM，为模型添加了「看图说话」的多模态能力，这在当时是一项很前沿的研究，立即引起了大量关注。

在波士顿的会场，当时的微软全球执行副总裁沈向洋穿过人群找到他，表示「就想来看看这个论文的海报」，并希望这项研究不只停留在实验室，而是真正成为一个产品。后来，DLTC 成立了一个产品团队，并将其视觉模块替换为孙剑、何恺明等人最新提出的 ResNet。

DMSM 的「看图说话」能力：「Jen-Hsun Huang, Xiaodong He, Jian Sun et al. that are posing for a picture.」（黄仁勋、何晓冬、孙剑等合影留念）

在 2016 年初微软研究院举办的技术节（TechFest）上，何晓冬也在自己的「摊位」向微软 CEO Satya Nadella 展示了这项工作。

同年 3 月，这项技术被 Satya Nadella 拿到了微软 Build 大会上介绍，在场的记者们掏出手机拍照，发现生成的描述意外地精确，全球轰动。

「在微软研究院，你可以做任何研究；但是如果想放大，就要选择场景，选择合适的产业和行业。中国互联网服务的天花板更高，服务量更大，应用场景更广，后来我们想到，比如京东的人工智能技术很多就是在实践中打磨的，某种意义上说，京东的智能客户服务场景，可能是国内在客服领域最佳的 AI 实践场景。」

2017 年到 2018 年间，几位 AI 领域的知名学者陆续加盟京东。他们的初衷是相似的：将学界最先进的技术带过来，在产业中真正用一用。

全面向技术转型之后，京东内部曾就「走哪种 AI 发展路线」进行过一番探讨和规划。他们得出的结论是，要从技术、产品、生态三方面启动搭建。

2019 年底至 2021 年初，京东云经历了两次组织架构上的调整。第一次是京东云与人工智能、IoT 三大事业部整合为京东云与 AI 事业部，第二次是京东将云与 AI 业务与京东数科整合，成立京东科技子集团。

三年两次的架构调整，伴随着的是京东在 AI 落地经验上的不断深化。大家的共识逐渐清晰：一定要更懂产业，在产业服务上做文章。

据统计，京东体系目前用于技术研发的投入超过了 800 亿，京东科技 60% 以上的员工都是技术和产品人才，何晓冬、郑宇、陶大程、梅涛 4 位科学家入选 IEEE Fellow，此外还包括 40 + 位全球顶级科学家。迄今为止，京东累计申请专利 4635 个，在国际 AI 顶级会议共发表近 500 篇论文，获得了 25 项国家 AI 竞赛冠军。

几年过后，京东在 AI 技术上的积累愈发深厚。更重要的是，京东可以提供基于最佳实践的解决方案，通过产品为客户创造价值，客户不需要是有经验的开发者，用户只需要做出商业上的决策。

如何成为「最懂产业的云」

来到京东之后，何晓冬延续了此前在对话式 AI、多模态等领域的研究，并带领团队将一系列研究成果迅速转化，应用在京东的智能服务业务中，包括知识融合的预训练模型 K-PLUG、长文本阅读 Read-over-Read 模型、数值推理 OPERA 模型、时序知识图谱 TSQA 模型等。

其中，基于领域预训练 K-PLUG 的商品文案生成模型已经覆盖了京东的 3000 多个三级品类，人工审核通过率 95% 以上，媲美优秀的人类写手，目前共生成文案 30 亿字，已应用于京东发现好货频道、搭配购、AI 直播带货等，累计带来超过 3 亿元 GMV。

一键生成 3000 + 品类文案。

同时，何晓冬还牵头搭建了京东内部大规模对话式 AI 系统的搭建工作。

和国外主要针对 To C 业务的「闲聊机器人」相比，京东的智能对话系统以 To B 为主，往往是来自真实场景的具体问题或任务驱动型的对话。京东积累了大量与真人沟通的场景数据，为智能人机对话与交互等前沿技术的落地提供了最好的实践场。

技术上的差距已经不构成绝对挑战，但到了落地应用又是另外一回事。拿对话式 AI 来说，比较常见的技术壁垒包括口语不流利、话语权决策、鲁棒性这三个问题。

业界一直在寻找好的破解路径。在今年 5 月的谷歌 I/O 大会上，为了解决语音背景噪声、用户说话磕巴、语句断断续续产生的问题，谷歌宣布 Google Assistant 已经进一步优化了神经网络模型，可以对非连续的对话进行理解。

京东云遇到此类问题的时间要比谷歌早，形成了有效解决方案的时间也更早。

2020 年底，业界首个大规模商用的智能对话与交互系统「言犀」应运而生。针对上述的问题，言犀给出了自己的解决方案。

以口语不流利的问题为例，我们都知道，口语化表达经常包含磕巴、语句断断续续的情况，还会有大量的重复、停顿、自我修正等表述；不同文化背景、不同地区的方言习惯也存在不同的呈现方式。此外，几乎每年都会出现大量互联网新词汇。这些都会对下游的语义理解造成干扰。

言犀采用序列标注模型对句子中的每个字进行分类，从而识别句子中需要删除的冗余成分，达到口语顺滑的目的。面向为了缓解模型对于标注数据的过度依赖，言犀采用自监督学习的方式，通过对大规模的书面流畅文本进行插入、删除等操作，从而生成大量的不流畅文本。同时，还联合语法判别任务，对于输入的文本，从整个句子层面判断是否语法正确。

还有一个问题是怎么学习「接话」问题。对于智能对话系统来说，判断在合适的时机接过话语权，并且在听者和说话者之间流畅、自然地转换，是个有些超纲的问题。

对此，言犀引入了多模态技术，不再单凭语音信号来判断是否接过话语权，而是分别使用语音、语义以及时间三种不同纬度的特征来判断是否切换话语权。

多模态融合的话语权决策 (Turn taking)

对于语义特征，言犀采用 transformer 等语言模型，根据上下文来判断当前语句是否完整；对于语音特征，言犀会将音频片段分桢，提取每一帧的特征向量，再将其输入到一个深层的 ResNet 网络，提取其特征表示。如果提取的特征有音调偏低、语速变慢等特点，则代表可能是结尾的最后一个字；此外，还会基于语音片段的时长、语速、声调等时间维度进一步判断，最后通过融合三种不同模态的特征，来判断是否接过话语权。

一个形象的比喻是：京东每天有千万级的对话量，相当于千万次「图灵测试」。通过和用户间的不断沟通，言犀持续测试最佳的应答方式，提升自己解决问题的能力。

在近日举行的 2022 京东云峰会上，言犀官宣了品牌升级动作。升级后的「言犀 2.0」，产业标签更加突出。

相比于第一代，言犀 2.0 最大的特点是突出了交互型多模态数字人的应用，在语音、语义的功能之上，增加了视觉技术的驱动。

言犀多模态数字人平台定位「产业服务型数字人」，集成智能多模态技术于一身，包括语音语义、多轮对话、表情形象驱动等能力，可以生成生动的语音、自然的面部表情和身体姿势，提供身临其境的交互体验。

在 2022 京东云峰会上，全新发布的多模态数字人「言小希」。

言犀多模态数字人平台已经通过信通院首批数字人系统基础能力评测，现在拥有 100 + 数字人形象，广泛应用在零售直播、银行业务办理、政务服务等场景。

数智供应链的最后一环

在当前环境下，以及产业数字化正由量变向质变进化。京东指出，产业数字化的下一站一定是数智供应链。

智能服务则是「数智供应链的最后一环」。京东 2009 年就自建了客服团队，2012 年就开始做智能客服，至今已超过 10 年。目前，京东云自研的言犀平台已涵盖了售前、售中、售后、物流等全链路服务。

在大会上，何晓冬还分享了一些数字：

目前，言犀平台拥有海量的脱敏数据，每天可提供1000万次的智能客户服务，每月共计200万小时通话语音，成功抗住了春晚5.5亿次服务流量洪峰和多个京东618和11.11。言犀拥有业内最细粒度的知识库，包括4层知识体系，40+独立子系统，3000+意图，3000万个高质量的问答知识点，覆盖1000万自营SKU的电商知识图谱。言犀每天自动回流7万+知识点，可以实现动态语言模型更新以及对话路径自动挖掘。

作为一家新型实体企业，京东一端连接消费互联网，一端连接产业互联网，已经将对话式 AI 技术服务于京东 5.8 亿用户和 17.4 万商家。今年 618 期间，京东智能客服累计咨询服务量 6.1 亿次，物流智能外呼累计提供电话预约服务 253 万通；还累计完成了 3.3 亿次智能质检与风控。

同样的能力，也已经应用在全国多地的政务咨询业务中。

疫情之下，各个城市的防控需求变得常态化。常规的疫情防控与排查需要城市各级单位进行大量的调查走访，人力物力消耗极大，同时人群聚集更易增加疾病传播风险，这为科技防疫提供了用武之地。

在这样的情况下，京东言犀推出了疫情防控与排查解决方案，30 分钟内就可以从 0 到 1 搭建完成，且拥有高并发稳定可靠的系统架构，最高可支撑 100 万人次 / 小时，支持多批次需求的外呼任务。今年 5 月北京疫情防控过程中，一些北京市民接到过 96010 打来的流调电话。这个「外呼人员」，就来自京东言犀。

在北京生活的市民群众来自全国各地，口音皆不相同，且电话端还可能存在高噪音的问题。针对这些挑战，言犀利用其深度语音识别引擎以及口语顺滑、话语权决策等前沿技术进行优化，保证了通话流畅自然。

北京市通州区政府联合京东云言犀平台，对近 3 日未做核酸检测的市民进行了超过 50 万人的智能外呼排查，在 5 个小时内就完成了通知、提醒近 40 万人参与核酸检测，为疫情防控大大减轻了压力，节约了大量人力成本。作为抗疫外呼的官方电话号码，96010 正在推广至全北京市，以提供疫情防控智能外呼服务。

政务热线被称为「民情的温度计」，特别是疫情期间，人们会打政务热线咨询能不能打疫苗、能不能出门的问题，但很多群众会感觉到「打不通、说不清、办不了」，这就对智能对话系统提出了要求：首先响应速度要快，然后要能准确识别方言浓厚、断断续续的句子。

在「大同 12345 政务热线」的合作项目中，运营人员经过一段时间的数据追踪发现：京东言犀的呼入电话接起率达到了 92%，遥遥领先于其他城市。同时，言犀也自动完成了工单创建、智能匹配至对应委办局、跟踪工单执行情况、自动对市民回访等全闭环流程。

从场景中来，到场景中去。凭借 19 年来高效、创新、可持续的跨越式发展，京东已经验证和凝练了一套完整的能力体系。对话式 AI 落地再难，京东的科学家们也早已准备好了答案。

用何晓冬博士的一句总结：「如果想走得更远，AI 必须要成规模的覆盖低频、长尾的场景。将单点的、最先进的科研模型在产品上综合落地，这是真正能够拓展 AI 价值边界的事情。」

最先进的人工智能算法，服务最接地气的场景，就是京东云的本色，也应该是产业 AI 发展的本色。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章