Redian新闻
>
大模型剑指AI Agents,达摩院推出Dialogue Agents新基SpokenWOZ

大模型剑指AI Agents,达摩院推出Dialogue Agents新基SpokenWOZ

科技


ChatGPT 是否已搞定对话任务?在最新推出的 SpokenWOZ 基准上,ChatGPT 仅能完成 13.8% 的任务。




背景


我们先通过下面视频来感受下真实生活中 Dialogue Agents 的产品:


视频中用户需要通过车载对话机器人进行拨打电话,在告知机器人手机号的时候遇到非常大的困难,机器人因为语音识别(ASR)错误而无法准确理解用户手机号,也无法帮助用户进行修正,对话体验很差。


语音对话带来的挑战不仅体现在 ASR 错误所带来的鲁棒性上,更在于语音交互中语言的高速输出往往超过人脑组织语言的速度而产生不流利、不完整和停用词上的表达,使整个对话过程不同于文本对话上完整的内容交互,导致我们日常所接触到的 Dialogue Agents 往往如视频中不够智能。


而当前学术界的任务对话数据集如 MultiWOZ 主要以文本对话为主,难以建模视频中语音场景上这些真实的问题和挑战,这也极大地限制了 Dialogue Agents 在真实对话场景上的研究与发展。


近期以 ChatGPT 为代表的大语言模型(LLM)的出现给 AI Agents 带来了全新的想象力,OpenAI 联合创始人 karpathy 表示 AI Agents 代表了 AI 的未来,Lilian Weng 进一步撰文提出 Agent = LLM(大型语言模型)+ 记忆(Memory) + 规划技能(planning) + 工具使用(tool use),这与 Dialogue Agents 里对话状态更新(DST)、对话策略(Policy)和数据库等工具的调用有明显的对应关系,可以认为 Dialog Agents 是 AI Agents 的一个分支类型,对 Dialogue Agents 的深入研究将有利于推动 LLM 与 AGI 的发展




新基准


为了推动 Dialogue Agents 在真实对话场景的研究,阿里巴巴达摩院对话智能团队(水德团队)近期推出了基于真实语音对话的 Dialogue Agents 新基准SpokenWOZ(SpokenWOZ: A Large-Scale Speech-Text Dataset for Spoken Task-Oriented Dialog Agents)。


SpokenWOZ 是当前最大规模的音义双模态对话数据集,包含 8 个领域、202K 轮次、5.7K 对话和对应 249 小时的对话音频,带有多样化音频、完全口语化的特征以及细粒度记忆与推理的新挑战。当前微调之后最好的音义双模态模型只能完成 52.1% 的对话任务,而 ChatGPT 由于幻觉和单模态的限制只能完成 13.8% 的任务,说明真实语音对话具有很大挑战。


论文链接:
https://arxiv.org/abs/2305.13040

论文作者:

马文涛、武玉川、林廷恩、黎航宇、严睿、黄非、李永彬

代码链接:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/spokenwoz

榜单链接:

https://spokenwoz.github.io/SpokenWOZ-github.io/



三大挑战


SpokenWOZ 具有我们真实语音对话场景的显著特征与挑战,具体包括以下三个方面:


1. 音义双模态,整个对话内容通过语音通话产生,然后经过 ASR 工具转化成文本,从而够构建出语音与文本对齐的双模态对话数据。为了获取高质量多样化的音频对话,兼顾母语和非母语两种背景下不同的发音特征,我们选择在中国大陆、南非、新加坡和加拿大四个国家和地区进行对话内容构建,各地区采集对话内容占比如下:


▲ 各地区对话占比

▲ 母语与非母语对话占比

2. 完全口语化,由于整个对话是通过即时的语音通话产生,是完全的口语对话。这种口语化与文本对话特征区别明显,比如在预定一个餐馆时,之前工作 MultiWOZ 中数据集里的文本对话表达一般是 “I Would like a cheap restaurant in the north area”,而 SpokenWOZ 中的口语表达为 “I would like a restaurant, hmmm, cheap one please, meanwhile in the south area, sorry, in the north.”。这种口语化特征主要表现在 Back-channel(如 hmmm)、不流利和不完整的表达上;


3. 细粒度记忆与推理口语对话不仅仅会在鲁棒性带来挑战,我们发现完全的口语化会带来两类新的槽位实体(slot),包括需要细粒度记忆的多轮 slot(cross-turn slot)和推理型 slot(reasoning slot),这两种槽位是由于口语不完整和间接表达所带来的记忆和推理上的新挑战,无法通过抽取得到答案,因此在 Agent 的记忆和状态更新上带来了更大的难度,具体如下图:

▲ 图1a Cross-turn slot示例   ▲ 图1b Reasoning slot示例

  1. Cross-turn slot:如上面视频中的示例,在实际口语对话中,对于一些复杂信息的交互如手机号、车牌号等,我们通常需要通过多轮对话进行表达和确认,对 Agent 在多轮间细粒度的记忆的更新与维护带来更大难度。在 SpokenWOZ 中我们引入了一个日常对话经常涉及到的个人信息 domian 包含手机号、身份证号、姓名、邮箱和车牌号五个 cross-turn slot,如图 1a 中为身份证号的对话与对应 slot 更新示例;
  2. Reasoning slot:口语对话中出于表达的便利性通常会有信息的间接表达,这种间接表达就需要推理才能完成对应槽位 slot 的填充。我们引入了口语中经常使用的时间、数字和语义三类推理型 slot,如图 1b 是时间(bookday)和语义(Restaurant-Type)两个推理型 slot 的示例。




数据构建


SpokenWOZ 数据构建过程中,首先会通过两个不同的角色分别扮演用户和 Agent,通过语音构建了对话内容后再进行各组件信息的标注,包括 DST(Shot-term memory)、对话策略(planning)等信息,同时构建了一个数据库来存储数据(Long-term memory),整体标注流程如下图:

主要包含对话内容采集和结构化标注两步:


  1. 语音对话收集:为了获得真实的口语对话音频,我们组织了 250 名参与者,通过打电话的方式生成了 5,700 个对话。在收集过程中,一个参与者扮演用户的角色并根据模板生成的任务目标提出问题。另一位参与者扮演一个 Agent 去完成用户的需求和任务,通过搜索在线数据库来回答用户的问题;

  2. 文本对话标注:我们培训了 15 名专业的标注人员,根据使用 ASR 工具生成的文本来进行对话状态和对话行为的标注。我们使用了基于规则的脚本检查,标注人员间的相互检查,以及人工的随机抽查来保证标注质量。为了降低 SpokenWOZ 的使用难度,我们继承并拓展了 MultiWOZ 的标注规范,增加了例如 Backchannel 的对话动作标注。




实验结果


我们主要针对 Dialog Agents 完成任务的能力和中间的状态更新模块(Shot-term Memory)进行评估。具体延续之前的工作 MultiWOZ 设计了回复生成和对话状态追踪两个任务。其中回复生成任务包含给出真实的 DST 信息(Policy Optimization)和完全端到端生成(End-to-end Modeling)两个 setting。


在基线上我们考虑了不同尺寸的各类 Dialogue Agens,包括 1B 以下的单模态(UBAR, SPACE 等)及音义双模态模型(SPACE+WavLM)、ChatGPT(gpt-3.5-turbo)以及 175BInstructGPT₀₀₃(text-davinci-003)。评价指标上,在 DST 任务采用联合准确率 JGA(当前轮所有 slot 都正确的比例),回复生成任务上使用 Inform、success(完成率)和 BLEU,以及三者联合计算的 comb 指标 [Combined Score = INFORM + SUCCESS)*0.5 + BLEU]。

与文本对话 MultiWOZ 上的结果(如 SPACE 在 DST 任务中取得 57.5 的 JGA,在端到端建模任务中取得 110.95 的 Comb)相比,这些指标在 SpokenWOZ 中明显较低,这表明基于语音对话的 SpokenWOZ 难度大幅提升。目前最好的双模态模型在端到端回复生成任务上完成率只有 52.1%,而大模型中效果最好的 InstructGPT₀₀₃ 完成率只有 18.5%,说明 Dialogye Agents 在口语对话上还有较大挑战与提升空间。另外,我们还发现以下结论:


  1. Dialogue Agents 需要音频信号:我们新提出的双模态对话模型(SPACE+WavLM)在三个任务上都表现出了对比纯文本任务型对话的一致的效果提升。同时我们还发现经过了音频与文本对齐后(SPACE+WavLMalign),模型的效果会进一步提升,说明音频信号的建模对于 DIalogue Agents 处理文本对话是有帮助的,尤其是在处理有 ASR 识别错误的文本上;

  2. 大模型的瓶颈是短期记忆:LLMs 在短期记忆任务对话状态追踪 DST 和端到端建模上明显低于 finetune 的小模型。但是值得注意的是,LLMs 在给定真实 DST 结果时取得了相近的表现(Policy Optimization),这表明 LLM zero-shot 生成能力很强,但是完成任务的能力受制于短期记忆更新(DST)的准确率。


进一步分析我们发现 LLMs 在对话状态追踪上的主要问题是幻觉现象非常严重,例如 LLMs 经常产生用户没有提及的实体信息,如果我们在只测试那些需要更新的槽位实体时,ChatGPT 在 DST 任务的JGA为30.81,InstructGPT₀₀₃ 为 34.42。与全部 slot 更新下的 JGA 相比,ChatGPT 和 InstructGPT₀₀₃ 别提高了 17.06 和 20.27,说明 LLM 在对话并没有涉及到的槽位实体上产生了大量的错误结果,幻觉现象非常严重。


另外,由于 LLMs 无法感知到语音信息,这使得在对话追踪任务中,LLMs 倾向于从用户的话语中直接生成对应的值,而这些值在原本的语句中经常出现 ASR 错误而导致错误结果。具体见下图中的case示例:



总结


语音对话是人与机器最自然的交互方式,而当前的大模型主要还停留在文本指令理解,已有的 Dialogue Agents 在语音对话任务上还具有较大挑战。我们相信 SpokenWOZ 的提出将会促进大模型拓展文本、音频等多模态能力,进一步推动 Dialog Agents 在语音对话场景的研究与应用,促进其更好地为我们完成日常生活中的任务,成为真正的人类助手!


更多阅读


#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
直播预告 | 阿里达摩院算法研究员黄斐:又快又好的非自回归文本生成北京/杭州内推 | 阿里达摩院视觉技术实验室招聘计算机视觉算法工程师/实习生阿里达摩院发布业内首个遥感AI大模型;拼多多今日启动11.11大促;微博CEO率先测试前台实名制……北京/杭州内推 | 阿里达摩院对话智能团队招聘大语言模型方向算法专家传任天堂正在开发VR眼镜,谷歌参与其中; VR生存类Roguelike游戏《Bootstrap Island》正在开发中ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性还分不清bin log 、redo log 跟 undo log?150刀Logitech G560 LIGHTSYNC PC Gaming Speaker全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens达摩院加入AI抢人大战;薇娅公司发布AI数字人直播业务;中国电信正深研通用大模型丨AIGC大事日报早,VOGUE|欢迎来到Vogue World,谭卓的首尔艺术周之旅[掌设] 复古游戏掌机的的终极形态Analogue Pocket(openFPGA)和终极烧录卡Krikzz-EverDrive达摩院「悬壶」,顶尖实验室带你领略医疗AI「圣手」华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」早VOGUE播客|首期上线,VOGUE主编们畅聊九月刊那些事𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~《我在阿里达摩院的分享(干货预警)》掉价的房子买到了手,如今涨疯了达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败Universities Forcing Them Into Fake Employment, Students Say百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报流水的日子处方药“演唱会门票”应该说concerts' tickets还是concert tickets?阿里达摩院免费开放100件AI专利;字节推出大模型MBTI测试结果;ChatGPT自定义功能扩展免费丨AIGC大事日报"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"有关UFO的巧合与假设早财经丨北京的自来水变凉了?官方回应;阿里达摩院校招,近6成岗位要求博士学历;台积电在德国合资建厂,总投资近350亿欧元画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成人事动向|星巴克中国任命联席CEO,英国版Vogue迎来新主编,亚瑟士、Jacquemus 、Ulta Beauty管理层变动只需四步就能构建自己的Agent!达摩院新开源框架小白也能用豆豆三部曲的男女主人公(3)推出Duet AI,谷歌的野心藏不住统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了连续两年最佳论文!达摩院NLP引领检索增强和实体识别技术,U-RaNER荣膺9项评测冠军
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。