大模型剑指AI Agents，达摩院推出Dialogue Agents新基SpokenWOZ

2023-08-27 14:08

ChatGPT 是否已搞定对话任务？在最新推出的 SpokenWOZ 基准上，ChatGPT 仅能完成 13.8% 的任务。

背景

我们先通过下面视频来感受下真实生活中 Dialogue Agents 的产品：

视频中用户需要通过车载对话机器人进行拨打电话，在告知机器人手机号的时候遇到非常大的困难，机器人因为语音识别（ASR）错误而无法准确理解用户手机号，也无法帮助用户进行修正，对话体验很差。

语音对话带来的挑战不仅体现在 ASR 错误所带来的鲁棒性上，更在于语音交互中语言的高速输出往往超过人脑组织语言的速度而产生不流利、不完整和停用词上的表达，使整个对话过程不同于文本对话上完整的内容交互，导致我们日常所接触到的 Dialogue Agents 往往如视频中不够智能。

而当前学术界的任务对话数据集如 MultiWOZ 主要以文本对话为主，难以建模视频中语音场景上这些真实的问题和挑战，这也极大地限制了 Dialogue Agents 在真实对话场景上的研究与发展。

近期以 ChatGPT 为代表的大语言模型（LLM）的出现给 AI Agents 带来了全新的想象力，OpenAI 联合创始人 karpathy 表示 AI Agents 代表了 AI 的未来，Lilian Weng 进一步撰文提出 Agent = LLM（大型语言模型）+ 记忆（Memory） + 规划技能（planning） + 工具使用（tool use），这与 Dialogue Agents 里对话状态更新（DST）、对话策略（Policy）和数据库等工具的调用有明显的对应关系，可以认为 Dialog Agents 是 AI Agents 的一个分支类型，对 Dialogue Agents 的深入研究将有利于推动 LLM 与 AGI 的发展。

新基准

为了推动 Dialogue Agents 在真实对话场景的研究，阿里巴巴达摩院对话智能团队（水德团队）近期推出了基于真实语音对话的 Dialogue Agents 新基准SpokenWOZ（SpokenWOZ: A Large-Scale Speech-Text Dataset for Spoken Task-Oriented Dialog Agents）。

SpokenWOZ 是当前最大规模的音义双模态对话数据集，包含 8 个领域、202K 轮次、5.7K 对话和对应 249 小时的对话音频，带有多样化音频、完全口语化的特征以及细粒度记忆与推理的新挑战。当前微调之后最好的音义双模态模型只能完成 52.1% 的对话任务，而 ChatGPT 由于幻觉和单模态的限制只能完成 13.8% 的任务，说明真实语音对话具有很大挑战。

论文链接：

https://arxiv.org/abs/2305.13040

论文作者：

马文涛、武玉川、林廷恩、黎航宇、严睿、黄非、李永彬

代码链接：

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/spokenwoz

榜单链接：

https://spokenwoz.github.io/SpokenWOZ-github.io/

三大挑战

SpokenWOZ 具有我们真实语音对话场景的显著特征与挑战，具体包括以下三个方面：

1. 音义双模态，整个对话内容通过语音通话产生，然后经过 ASR 工具转化成文本，从而够构建出语音与文本对齐的双模态对话数据。为了获取高质量多样化的音频对话，兼顾母语和非母语两种背景下不同的发音特征，我们选择在中国大陆、南非、新加坡和加拿大四个国家和地区进行对话内容构建，各地区采集对话内容占比如下：

▲ 各地区对话占比

▲ 母语与非母语对话占比

2. 完全口语化，由于整个对话是通过即时的语音通话产生，是完全的口语对话。这种口语化与文本对话特征区别明显，比如在预定一个餐馆时，之前工作 MultiWOZ 中数据集里的文本对话表达一般是 “I Would like a cheap restaurant in the north area”，而 SpokenWOZ 中的口语表达为 “I would like a restaurant, hmmm, cheap one please, meanwhile in the south area, sorry, in the north.”。这种口语化特征主要表现在 Back-channel（如 hmmm）、不流利和不完整的表达上；

3. 细粒度记忆与推理，口语对话不仅仅会在鲁棒性带来挑战，我们发现完全的口语化会带来两类新的槽位实体（slot），包括需要细粒度记忆的多轮 slot（cross-turn slot）和推理型 slot（reasoning slot），这两种槽位是由于口语不完整和间接表达所带来的记忆和推理上的新挑战，无法通过抽取得到答案，因此在 Agent 的记忆和状态更新上带来了更大的难度，具体如下图：

▲ 图1a Cross-turn slot示例 ▲ 图1b Reasoning slot示例

Cross-turn slot：如上面视频中的示例，在实际口语对话中，对于一些复杂信息的交互如手机号、车牌号等，我们通常需要通过多轮对话进行表达和确认，对 Agent 在多轮间细粒度的记忆的更新与维护带来更大难度。在 SpokenWOZ 中我们引入了一个日常对话经常涉及到的个人信息 domian 包含手机号、身份证号、姓名、邮箱和车牌号五个 cross-turn slot，如图 1a 中为身份证号的对话与对应 slot 更新示例；
Reasoning slot：口语对话中出于表达的便利性通常会有信息的间接表达，这种间接表达就需要推理才能完成对应槽位 slot 的填充。我们引入了口语中经常使用的时间、数字和语义三类推理型 slot，如图 1b 是时间（bookday）和语义（Restaurant-Type）两个推理型 slot 的示例。

数据构建

SpokenWOZ 数据构建过程中，首先会通过两个不同的角色分别扮演用户和 Agent，通过语音构建了对话内容后再进行各组件信息的标注，包括 DST（Shot-term memory）、对话策略（planning）等信息，同时构建了一个数据库来存储数据（Long-term memory），整体标注流程如下图：

主要包含对话内容采集和结构化标注两步：

语音对话收集：为了获得真实的口语对话音频，我们组织了 250 名参与者，通过打电话的方式生成了 5,700 个对话。在收集过程中，一个参与者扮演用户的角色并根据模板生成的任务目标提出问题。另一位参与者扮演一个 Agent 去完成用户的需求和任务，通过搜索在线数据库来回答用户的问题；
文本对话标注：我们培训了 15 名专业的标注人员，根据使用 ASR 工具生成的文本来进行对话状态和对话行为的标注。我们使用了基于规则的脚本检查，标注人员间的相互检查，以及人工的随机抽查来保证标注质量。为了降低 SpokenWOZ 的使用难度，我们继承并拓展了 MultiWOZ 的标注规范，增加了例如 Backchannel 的对话动作标注。

实验结果

我们主要针对 Dialog Agents 完成任务的能力和中间的状态更新模块（Shot-term Memory）进行评估。具体延续之前的工作 MultiWOZ 设计了回复生成和对话状态追踪两个任务。其中回复生成任务包含给出真实的 DST 信息（Policy Optimization）和完全端到端生成（End-to-end Modeling）两个 setting。

在基线上我们考虑了不同尺寸的各类 Dialogue Agens，包括 1B 以下的单模态（UBAR, SPACE 等）及音义双模态模型（SPACE+WavLM）、ChatGPT（gpt-3.5-turbo）以及 175B 的 InstructGPT₀₀₃（text-davinci-003）。评价指标上，在 DST 任务采用联合准确率 JGA（当前轮所有 slot 都正确的比例），回复生成任务上使用 Inform、success（完成率）和 BLEU，以及三者联合计算的 comb 指标 [Combined Score = INFORM + SUCCESS)*0.5 + BLEU]。

与文本对话 MultiWOZ 上的结果（如 SPACE 在 DST 任务中取得 57.5 的 JGA，在端到端建模任务中取得 110.95 的 Comb）相比，这些指标在 SpokenWOZ 中明显较低，这表明基于语音对话的 SpokenWOZ 难度大幅提升。目前最好的双模态模型在端到端回复生成任务上完成率只有 52.1%，而大模型中效果最好的 InstructGPT₀₀₃ 完成率只有 18.5%，说明 Dialogye Agents 在口语对话上还有较大挑战与提升空间。另外，我们还发现以下结论：

Dialogue Agents 需要音频信号：我们新提出的双模态对话模型（SPACE+WavLM）在三个任务上都表现出了对比纯文本任务型对话的一致的效果提升。同时我们还发现经过了音频与文本对齐后（SPACE+WavLMalign），模型的效果会进一步提升，说明音频信号的建模对于 DIalogue Agents 处理文本对话是有帮助的，尤其是在处理有 ASR 识别错误的文本上；
大模型的瓶颈是短期记忆：LLMs 在短期记忆任务对话状态追踪 DST 和端到端建模上明显低于 finetune 的小模型。但是值得注意的是，LLMs 在给定真实 DST 结果时取得了相近的表现（Policy Optimization），这表明 LLM zero-shot 生成能力很强，但是完成任务的能力受制于短期记忆更新（DST）的准确率。

进一步分析我们发现 LLMs 在对话状态追踪上的主要问题是幻觉现象非常严重，例如 LLMs 经常产生用户没有提及的实体信息，如果我们在只测试那些需要更新的槽位实体时，ChatGPT 在 DST 任务的JGA为30.81，InstructGPT₀₀₃ 为 34.42。与全部 slot 更新下的 JGA 相比，ChatGPT 和 InstructGPT₀₀₃ 别提高了 17.06 和 20.27，说明 LLM 在对话并没有涉及到的槽位实体上产生了大量的错误结果，幻觉现象非常严重。

另外，由于 LLMs 无法感知到语音信息，这使得在对话追踪任务中，LLMs 倾向于从用户的话语中直接生成对应的值，而这些值在原本的语句中经常出现 ASR 错误而导致错误结果。具体见下图中的case示例：

总结

语音对话是人与机器最自然的交互方式，而当前的大模型主要还停留在文本指令理解，已有的 Dialogue Agents 在语音对话任务上还具有较大挑战。我们相信 SpokenWOZ 的提出将会促进大模型拓展文本、音频等多模态能力，进一步推动 Dialog Agents 在语音对话场景的研究与应用，促进其更好地为我们完成日常生活中的任务，成为真正的人类助手！

更多阅读