基于多模态学习的虚假新闻检测研究
进NLP群—>加入NLP交流群
社交媒体在给人们带来便利的同时,也成为虚假新闻恣意传播的渠道,如果不及时发现遏止,极易引 发群众恐慌,激起社会动荡。因此,探索准确高效的虚假新闻检测技术具有极高的理论价值和现实意义。本文对虚假新闻相关检测技术做了全面综述。首先,对多模态虚假新闻的相关概念进行了整理和归纳,并分析了单 模态和多模态新闻数据集的变化趋势。其次,介绍了基于机器学习和深度学习的单模态虚假新闻检测技术, 这些技术在虚假新闻检测领域已被广泛应用,而由于虚假新闻通常包含多种数据表现形式,这些传统的单模 态技术无法充分挖掘虚假新闻的深层逻辑,因此无法有效地应对多模态虚假新闻数据带来的挑战。针对此问 题,对近些年来先进的多模态虚假新闻检测技术进行了整理,从多流架构和图架构的角度归纳和论述了这些 多模态检测的技术方法,探讨了这些技术的思想理念与潜在缺陷。最后,分析了目前虚假新闻检测研究领域 存在的困难和瓶颈,并由此给出未来的研究方向。
http://fcst.ceaj.org/CN/abstract/abstract3314.shtml
概述
社交平台的信息传播具有低成本、高效率、实时 便捷等特点,这些便利为新闻在社区广泛传播提供 了可能,然而,信息发布和扩散的同时也导致了社交 网络上虚假新闻的恣意横行。据 2019年 CHEQ 和巴 尔的摩大学的经济研究报道[1],全球每年因虚假新闻 造成的损失高达 780 亿美元。2020 年 7 月,江苏南京 一小区发生外卖被盗事件,据警方了解,该偷盗居民 涉嫌多次盗窃,目前已被刑拘。事发后三天内,众多 网络媒体发布新闻,称当事人为考研大学生,报道中 还出现了“为供其深造,家中其他 3个兄弟姐妹辍学” 等说法。7 月 20 日下午,警方发布通报:嫌疑人李某 某大学毕业已两年,目前有固定收入,其偷外卖的原 因,是一次外卖被人拿走后,产生了报复心理。目 前,嫌疑人李某某已被取保候审。李某某父母和大 姐在老家务农,二姐、三姐分别在北京、海南工作。换言之,“考研大学生”这一身份是虚假信息,李某某 的家庭并不贫困,偷外卖也并非为了维持生活,如图 1(a)、图 1(b)所示。不良媒体通过散播这些假新闻 激起群众的同情,以此获取流量、关注,直到官方辟 谣,这些虚假新闻才得以遏止。由此可见,虚假新闻 已经成为大量不良媒体获取非法利益的工具,它们 的存在会加强人们之间的不信任关系,造成不良的 社会影响。因此,探索准确高效的虚假新闻检测方 法尤为重要。对于虚假新闻,新闻文字源于图片的 恶意编造,其描述的内容必然与图像真实内容存在 冲突,即模态之间存在语义不一致性,如果单从图片 或者文字角度分析,这种语义不一致性很难被模型 识别,容易导致模型分类错误,因此,从多模态的角 度探索虚假新闻检测技术很有必要。
纵观这些年关于虚假新闻检测的综述文章,很少有从多模态角度来分析的。早期研究者们致力于 寻找和构建人工特征来表示新闻内容,这时的综述 内容大多是关于这些特征的归纳整理[2-3],后来,随着 深度学习技术的发展,学者们将研究重心放在了这 种自动化特征提取技术上,其中涌现了大批基于深 度学习的虚假新闻检测文章,近些年来,一部分学者 对这些方法进行了总结[4- 5]。然而,这些文章的研究 角度存在局限,并没有考虑到虚假新闻中的其他模 态。有研究发现[6- 7],新闻的视觉内容是能误导读者 的关键因素。此外,新闻社交图中蕴含的虚假新闻 传播信息是检测取得成功的重要因素[8],因此从多模 态的视角分析新闻很有必要。针对此,本文详尽地 梳理了以往虚假新闻检测领域的一些工作,从单模 态到多模态的角度对该领域做全面的整理和综述。本文的贡献如下:
(1)详尽地从单模态到多模态角度对虚假新闻 检测领域相关技术做了归纳和整理;(2)将基于新闻社交图的检测技术作为一种特 殊的多模态处理方法,并对其最新技术的研究现状 做了补充和完善;(3)梳理了现有虚假新闻检测技术存在的研究 瓶颈,并给出了未来研究方向。
多模态虚假新闻检测技术
不同形式的信息源可以看成不同的模态[51],新闻 是典型的多模态数据,书面报道的新闻通常包含图 片和文本两种模态信息,短视频新闻至少包含图像、 音频和字幕等多模态信息,新闻社交图中包含新闻 内容以及新闻行为等多种模态信息。多模态虚假新闻检测技术的关键是如何构建模 型框架学习新闻数据的多模态信息,以提升虚假新 闻检测性能。总结至今提出的一些文章,大致可以 划分为两类:基于流形式的多模态虚假新闻检测技 术和基于图形式的多模态虚假新闻检测技术。
基于流形式的虚假新闻检测技术
基于单流架构的技术
单流架构指在模型输入之前,不同模态数据的 初级特征会通过拼接、函数映射等方式进行数据融 合,得到的多模态特征内部中各个模态的信息是独 立的,而多模态信息需要在后续模型中学习。最具 代表性的是基于 Transformer 架构的多模态模型,如 ViLT(vision-and-language transformer)[52]、MBT(multimodal bottleneck transformer)[53]等,各模态的数据会 预处理为序列化数据,例如,文本会转化为多个 token 组成的序列,图片会转化为多个不重叠的图片 patch序列,音频数据会先转化为频谱图,最终组成多个不 重叠的频谱图 patch 序列,多个模态的特征最终会进 行拼接,构成模型的多模态输入特征,单流架构框架 如图 2所示。
目前,单流架构模型在视频分类、情感分析、图 像生成等多模态领域中得以广泛应用,单流模型具 有结构简单、容易实现、高准确率等优势,在虚假新 闻检测领域中,是一个极具潜力的研究方向。但参 考目前的一些研究,其也存在一些缺陷:(1)在网络训练时需要花费更多的迭代次数才 能获得好的多模态表示;(2)由于模型的输入特征通常是多个模态特征 拼接而成,模型有较高的计算复杂度;(3)单流模型的学习需要大量的训练数据集,而 在虚假新闻检测领域中,目前没有足够多可以训练 的数据。
基于多流架构的技术
近些年来,关于多模态虚假新闻检测领域,研究 者们更常用的是基于多流架构的技术。多流架构是 指根据不同模态数据设计不同模型提取模态高级特 征,从各个模态高级特征中学习多模态特征并输入 下游的分类器中预测各个类别的概率。相比单流架 构,多流架构更加灵活,其可以针对不同模态数据单 独设计模型提取模态特征。多流框架如图 3所示。
基于图形式的虚假新闻检测方法
社会性是新闻的基本特性之一,新闻数据可以 表示为新闻和新闻受众互动的社交网络图,新闻社 交网络图包含了新闻文章、评论等纯文本数据,也包 含了节点、连边等关系型数据,这些不同形式数据组 成的图可以看作特殊的多模态数据。本节主要综述 基于新闻社交图的虚假新闻检测技术,其大致可以 包含两类:基于图机器学习的技术和基于图神经网络的技术。
基于图机器学习的技术 虚假信息的传播主要包含三种因素[71]:一是新闻 内容的合理性;二是传播者的个性以及可信度;三是 传播网络的同质性。基于以上因素,研究者根据新 闻内容和社交信息建立了不同的新闻社交图,如新 闻传播树、新闻立场网络等,以探究虚假新闻的传播 模式。传播树代表了在社交媒体上新闻文章的发帖和 转发之间的关系。Wu等人[72]将消息传播模式描述为 树结构的关系,传播树不仅能反映转发者与作者之 间的关系,还能反映转发者的即时行为和情感。其 次,Ma 等人[13]分别构建了真新闻和假新闻的消息传 播树,利用真新闻和假新闻存在的不同传播模式,计 算两棵传播树之间的子结构的相似性,实验证明该 方法可以有效帮助检测假新闻。
立场网络的节点表示新闻和帖子,边表示帖子 与帖子之间的支持和反对关系。利用立场网络进行 虚假新闻检测,即检测与某新闻相关帖子的可信度, 可信度越低,代表该新闻是假新闻的可能性越大。在新闻的传播中,有学者发现[73],可以通过用户分享 的观点、猜测和证据来自我纠正一些不正确的信 息。如图 5 所示,图 5(a)表示虚假新闻的立场网络, 图 5(b)表示真实新闻的立场网络。此外,有学者对 假新闻传播树和立场网络进行综合分析。Davoudi 等人[74]提出了一种包含动态分析、静态分析和结构分 析三个结构的检测框架。其分别使用循环神经网 络、全连接神经网络和 Node2Vec 学习传播树和立场 网络随时间的演化模式、检测结束时传播树和立场 网络的整体特征以及传播树和立场网络的结构特 征,最终汇总三个结构的输出完成虚假新闻的检测。
基于图神经网络的技术
近年来,研究者们借鉴了卷积网络、循环网络和 深度自编码器的思想,设计了可以用于处理图数据 的神经网络结构——“图神经网络”[76]。该技术在处 理图关系数据时有独特的优势,而虚假新闻的散布 和传播是以图形式实现的,图中节点表示与新闻相 关的实体信息,而连边表示不同实体之间的联系。新闻社交传播图如图6所示。
图卷积网络(graph convolutional network,GCN) 是借用卷积网络的思想处理图数据而提出的一种图 神经网络模型,其核心思想是学习一个映射函数,对 于图中的一个节点,聚合该节点的特征和邻居节点 的特征来生成该节点的新表示。Chandra等人[78]提出 的 SAFER(socially aware fake news detection framework)模型使用 GCN 来获取具有用户信息的新闻表 示,然而他们构建的是同质图网络,会导致信息丢失 问题。在此基础上,Wang等人[79]以新闻文本、图片和 知识概念为节点构建异质图,一定程度上缓解了该 问题。此外,Bian等人[80]从新闻的传播深度和散布广 度两个角度研究虚假新闻的扩散模式,如图 7 所示, 他们提出了双向图卷积神经网络,从自上而下和自 下而上两个方向分别获取虚假新闻传播和散布的模 式,最终的实验结果证明该方法的有效性。
总的来说,基于图形式的虚假新闻检测方法具 有准确率高、灵活性强等优点,可以识别影响虚假信 息传播的重要节点,为模型提供了一定的可解释能 力。但也存在一些问题,如新闻社交图需要事先人 为构建,当与新闻相关的实体数量太多时,需要花费大量时间,有时还可能错漏关键实体信息;其次,图 的训练需要花费大量时间,对硬件的需要较大;此 外,涉及时间因素的图检测技术仍然发展不完善。
结论
在互联网时代下,如何在海量的新闻中准确高 效地识别虚假信息成为了国际关心的热点话题。经 过多年的研究探索,虚假新闻检测技术已经从早期 的人工检测发展成如今的自动化检测,基于机器学 习的人工特征提取转变为如今的深度学习自动特征 提取,对新闻单一对象的检测方法演变为用户特征、 文本、图片、视频特征以及传播特征等多模态联合的 检测方法。
本文对虚假新闻检测研究相关理论进行了整理,从单模态到多模态角度对虚假新闻检测数据集与相关技术做了全面的综述,并对现有研究中存在 的缺陷做了归纳整理,最后给出该领域存在的问题 以及以后的研究方向。本文不仅对后来的学者们有 借鉴作用,而且还对专业媒体平台应对虚假新闻冲 击提供重要的实际应用价值。
进NLP群—>加入NLP交流群
微信扫码关注该文公众号作者