MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集

科技

2022-11-13 14:11

©PaperWeekly 原创 · 作者 | 孙庆锋

单位 | 微软，北京大学

研究方向 | 多模态对话，多模态推荐

论文标题：

MMDialog：A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

论文链接：

https://arxiv.org/abs/2211.05719

数据集链接：

https://github.com/victorsungo/MMDialog

基于多模态内容（文本，图像，表情，语音，视频等）进行对话交流，不仅是互联网时代人类日常在线沟通的主要形式（WeChat，Weibo，Twitter，Facebook， WhatsApp等)，也是人工智能领域的重要目标。因此本文提出了首个百万量级的多模态开放域多轮对话英文数据集 MMDialog，以更好地促进机器能够像人类一样交谈。

下图展示了一个 MMDialog 实例，而 MMDialog 数据集中共计包括了超过 100 万个来源于真实世界（某英文在线社交平台）的高质量对话 session，其中非重复图片 153 万张，并支持多种表情符。MMDialog 现已面向学术研究领域开源，并可访问上文链接获取使用授权。

本文分为四个主要部分，我们将首先回顾多模态对话领域相关进展，然后详细介绍 MMDialog 的统计结果与收集过程，第三、四部分我们结合 MMDialog 的特点，分别定义和构建了两种基于生成（generation）与检索（retrieval）的多模态开放域对话任务与基线模型。

研究背景

目前构建多模态对话系统的方法主要依赖大规模的数据驱动，因此研究者们陆续提出了一些包含视觉信息的对话数据集。例如，i）面向视觉问答的 Visual Dialog [1]，该类数据集给定包含图片的 context 做为条件，进行基于该条件的提问与解答；ii）面向 Image-Grounding 对话的数据集 IGC [2] 和 Image-Chat [3]，即给定某些图片，交谈者对图片中的相关内容展开对话；iii）MMChat [4]，则由给定图片展开对话，但后续聊天主题并不仅限于图片内容； iv）基于影视图文片段构建的 OpenViDial [5]，它截取了视频中的连续图片帧和对应字幕；v）面向多模态对话中图片分享行为的 PhotoChat [6]，等。

尽管认识到以上多模态对话语料库的多样性，但是现有数据集仍然存在局限性，例如：[1,2,3,4,5] 的对话回复仅为单模态文本；[1] 仅为针对特定图片内容的提问与解答，场景与任务的定义比较单一；[2][3] 则是从给定图像的对话中派生出来的，这种会话中讨论的主题通常只由给定图像触发和支撑，回复的内容只有文本信息，这与人类日常对话的习惯并不完全一致 -- 在一次完整的对话中，人类不仅会围绕某张图片展开讨论，也会随时发散话题，讨论其他内容，也可能再次分享并讨论其他图片；[4] 仅在对话开始阶段为图片，但后续对话及回复只包含文本模态；[5] 的字幕对话 turn 和帧图片 context 是从电影和电视剧中提取的，其中每个对话 turn 都与发生的相应帧图片配对，而并非源自真正的多模态对话场景；[6] 由众包标注，但已比较接近于现实生活中的多模态对话，但它仍然受到数据规模较小（仅 1.2 万个对话 session）、缺乏领域多样性（89 种 objects）、图片数量稀疏（每个 session 只有 1 张图片）的限制，这阻碍了对多模态开放域对话建模的进一步探索。

为了解决上述问题，我们提出了 MMDialog，它是一个大规模的多模态开放域对话数据集，包含 108 万个完整对话 session，超过 4000 个对话主题，以及 153 万张非重复图像，每个对话 session 平均 2.59 张图像，且可以位于对话过程的任何位置。显然，在日常生活中，人们可以在对话的任何阶段自由选择任何话题和模态进行沟通，而 MMDialog 很好地具备了这种特色。

MMDialog 丰富且真实的人类对话内容收集自一个英文在线社交平台（注：该过程完全符合该平台对于学术研究数据的采集和分享规定，且已对用户隐私脱敏及数据信息加密处理）。

MMDialog数据集

2.1 数据统计

据我们所知，MMDialog 是第一个百万规模的英文开放域多模态对话语料库，我们希望 MMDialog 海量的真实对话与图像信息能为相关研究提供更多的支持。以下为 MMDialog 与 PhotoChat 的统计对比，可以看到，前者相对于后者拥有 88 倍的 session 数量，47 倍的主题丰富度，以及 140 倍的图片数量。

以下为 MMDialog 的训练、验证、测试集的统计结果，我们分别随机选择 10000 个 session 作为验证与测试集，并将剩余数据作为训练集。

2.2 数据收集

为了保证数据质量，我们决定提取带有某种标签的对话（例如“#travel”、“#friends”、“#golf”），因为标签往往概括了文本话语和视觉媒体的主要主题。具体地，我们人工筛选出 4184 个流行的标签，且保证每个标签至少收集 1000 个对话，这样我们的数据集不仅满足开放域属性，而且可以确保较大的规模。

然后，我们利用以上标签集合作为种子来构建多轮对话。第一步，对于每个标签，我们抓取包含相应标签的 turn，并只保留那些包含至少一个图像的 turn 做为锚点；第二步，我们定位该锚点所在的整段对话；第三步，对于每个锚，我们查找所有其他相关 turn：i）从锚往下搜索直到叶节点，ii）从锚往上搜索直到根节点；iii）由于每个锚点都有可能包括多个回复，所以我们递归地跟踪每个 turn 链以恢复整个对话的树结构。

生成与检索tasks定义

假定已有一个多模态对话数据集，如 MMDialog，其中为对话 session 数，是第个 session 的对话历史，是的回复，与可以包含文本图像两种模态的内容。在上建模的目的是学习一个多模态对话模型，使给定一个新的可以预测一个多模态的回复。

由于目前对话系统的回复预测技术主要包括基于生成和基于检索方法。因此我们在将其调整为多模态场景时，定义了以下两项任务，这对于构建多模态开放域对话系统至关重要：

3.1 生成式多模态开放域对话

为了具备生成多模态回复的能力，我们需要基于学习一个多模态生成模型，其中是模型参数。因此给定一个新的多模态对话历史，我们可以通过生成对应的多模态回复（例如，包含一句文本和两张图片的完整 turn）。

3.2 检索式多模态开放域对话

给定一个新的多模态对话历史，以及一个包含个候选回复的集合，其中为一句文本或一张图片。此时检索模型的目标是根据，从中逐步选取文本或图片，组成一个完整的多模态回复。

3.3 多模态回复的意图预测任务

在 MMDialog 中，文本片段和视觉图像可以自由地位于多模态回复中的任何位置。因此，回复中各种模态的生成或检索的前后顺序也至关重要。意图预测任务的目的是：在给定对话历史的前提下，预测回复中不同模态元素的响应先后顺序。

因此, 我们将该过程定义为一个三分类任务：

。具体地，是意图预测模型，它以对话历史和已被生成/检索出的部分回复做为输入，输出下一个需要被生成/检索的元素模态 label（其中，0：一句文本，1：一张图像，2：回复已完整，应停止生成/检索）。

3.4 MM-Relevance, 一种新的评价指标

传统的，基于纯文本的对话回复质量评价，只存在一种情况：ground-truth 为一句文本，预测结果也只会是一句文本，因此只需利用 BLEU/ROUGE 等指标，计算之间的相关性即可。同样地，在传统的文本-图像生成/检索任务中，我们也只需利用 FID/IS/Recall 等指标，来计算预测结果与 ground-truth 之间的相关性。

但在多模态对话回复的评价中，我们遇到了前所末有的挑战：被预测结果与 ground-truth ，在元素数量与元素模态上无法保证完全对齐，例如，先后包括一句文本和一张图片，而则先后包括两张图片和一句文本。

为了解决上述问题，我们提出了一种新的评估指标：MM-Relevance，该指标基于大规模预训练的 CLIP 模型 [7] 进行多模态回复中的图片与自然语言之间相关性的评价。CLIP 模型由大量文本-图片对训练，并通过对比学习将两种模态（视觉和文本）的语义嵌入对齐。

具体地，假设我们获得了多模态回复（其中为文本+图片元素的总计个数）以及它对应的 ground-truth （其中为文本+图片元素的总计个数）。接下来，我们首先将和从左到右对齐，然后利用 CLIP 的 text-encoder 与 image-encoder 分别对和中的文本与图像编码，得到表征向量组和。然后，我们可以计算对齐位置的 CLIP 得分：

其中。

为了惩罚生成的太长或太短的序列，我们进一步改进该 metric 为：

我们将定义为最终的 MM-Relevance 指标，因此，即使面对元素数量与元素模态都末对齐的，我们依然可以有效计算它们之间的相关性。

两种基线模型

如下图所示，我们提供了两种基线模型来做为上文两种任务的初步解决方案。具体模型定义和实验细节请参考 MMDialog 论文。

4.1 生成式基线模型

如上图 (a) 所示，我们复现并改进了多模态回复生成的 SOTA 模型-Divter ，它包括两个主要部分：一个纯文本对话回复生成器，以及一个文本描述-图像翻译器。

具体地，在输入端，将对话历史做为输入，然后生成一个文本序列，该序列可能包括：i) 文本回复，或 ii) 图片的文本描述，或 iii）同时包括和，然后，对于，图片翻译器会将其翻译为图片回复，并将所有的与依次组合起来做为最后的多模态回复。值得注意的是，在的输入端，我们还需要一个图像-文本描述翻译模型，来将所有对话历史中的图像转化为对应的文本描述。

4.2 检索式基线模型

如上图（b）所示的多模态检索模型 DE++，我们复现并改进了 [6] 的图片分享算法，并将其扩展为同时具备判断模态意图与检索文本/图像的能力。

具体地，该模型包括一个回复模态意图预测模块和一个回复排序模块，它们具有相似的模型结构，并利用 CLIP 分别编码对话历史以及回复候选集中的文本和图像。在基于做出下一个元素的模态预测后，会从中选择与相关性最高的作为回复的组成部分，直到判定已被完整检索回为止。

4.3 Case Study

总结与展望

本文发布了首个百万量级的多模态开放域多轮对话英文数据集 MMDialog，并简要总结了多模态对话数据集的发展现状，紧接着我们详细介绍了 MMDialog 的相关信息，并据此提出了多模态开放域对话检索与生成的任务和初步解决方案，且提供了一种新的评价指标。接下来，我们将继续提升多模态开放域对话数据集的质量与规模，以及完善相应算法模型的效果，并希望与感兴趣的研究者们一起探讨交流，推动该领域的进一步发展。

参考文献

[1] Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, José MF Moura, Devi Parikh, and Dhruv Batra. 2017. Visual dialog. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 326–335.

[2] Nasrin Mostafazadeh, Chris Brockett, Bill Dolan, Michel Galley, Jianfeng Gao, Georgios Spithourakis, and Lucy Vanderwende. 2017. Image-grounded conversations: Multimodal context for natural question and response generation. In Proceedings of the Eighth International Joint Conference on Natural Language Processing, pages 462–472, Taipei, Taiwan.

[3] Kurt Shuster, Samuel Humeau, Antoine Bordes, and Jason Weston. 2020. Image-chat: Engaging grounded conversations. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2414–2429, Online.

[4] Yinhe Zheng, Guanyi Chen, Xin Liu, and Jian Sun. 2022. MMChat: Multi-modal chat dataset on social media. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 5778–5786, Marseille, France.

[5] Shuhe Wang, Yuxian Meng, Xiaoya Li, Xiaofei Sun, Rongbin Ouyang, and Jiwei Li. 2021. Openvidial 2.0: A larger-scale, open-domain dialogue generation dataset with visual contexts. arXiv preprint arXiv:2109.12761.

[6] Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, and Jindong Chen. 2021. PhotoChat: A human-human dialogue dataset with photo sharing behavior for joint image-text modeling. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, pages 6142 6152, Online.

[7] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763.

[8] Qingfeng Sun, Yujing Wang, Can Xu, Kai Zheng, Yaming Yang, Huang Hu, Fei Xu, Jessica Zhang, Xiubo Geng, and Daxin Jiang. 2022. Multimodal dialogue response generation. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2854-2866, Dublin, Ireland.

[9] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. 2022. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In International Conference on Machine Learning, pages 23318–23340.

更多阅读