AAAI 2023 | 自举多维度特征的虚假新闻检测

2023-01-03 05:01

©作者 | Qichao Ying

单位 | 复旦大学

研究方向 | 多媒体与AI安全

论文标题：

Q Ying, X Hu, Y Zhou, Z Qian, D Zeng, S Ge. Bootstrapping Multi-view Representations for Fake News Detection. AAAI 2023.

论文连接：

https://arxiv.org/pdf/2206.05741.pdf

代码连接：

https://github.com/yingqichao/fnd-bootstrap

很高兴大半年后终于又在多模态虚假新闻检测领域重新开张一篇工作。

基于深度学习的多模态虚假新闻检测（Fake News Detection, FND）一直饱受关注，本文发现以往关于多模态 FND 的研究仍未解决两个主要问题：

1. 不同工作虽提出一系列复杂的特征提取和跨模态融合网络来从新闻中获取表征判断是否存在异常。然而，没有足够的机制保证每个模态提取的信息都能够被充分用于最终的新闻检测决策环节，也鲜有显式机制衡量不同模态信息对检测的直接贡献。

2. 跨模态一致性（cross-modal consistency）在一些已有工作中被赋予过高权重，该因素与新闻真假程度的关联应被重新考虑。跨模态一致性与新闻的真实程度具有弱相关（如图 1 所示，CC 表示跨模态一致性）。

本文提出从新闻不同模态与不同角度提取特征，通过自举多元表征以及优化多模态特征学习方法实现具有更高准确率且一定解释性的 FND 方案。本文提出了两种机制来更好解决上述两个现存问题：

1. 引入粗判断机制（Coarse classification），对从多模态新闻提取得到的图像模式信息（image pattern，包含高频细节信息等）、图像语义信息（image semantics）与文本信息（text），分别送入单独的分类器，直接利用新闻不同视角信息对整条新闻真实性进行判断。该思路受到人类判断虚假新闻过程中检索各模态内容过程启发，利用粗判断从不同角度尽可能从新闻中提取得到最可能直接决定新闻真假性的表征，从而提升特征提取能力，为最终的决策环节提供足够的“证明性材料”。

2. 利用加权函数（reweighting function），学习粗分类预测结果与对应特征重要性的关系，显式对不同模态信息进行加权，可以看作是一种全新的基于模态的注意力机制（modality-wise attention）。

3. 将跨模态一致性学习（cross-modal consistency learning）从多模态特征生成中剥离。对于跨模态特征，其应作为剩余单模态特征的补充，而并不应仅包含模态一致性信息，因此不能由一种类似 CLIP 学习过程的跨模态一致性学习引导特征提取过程。本文利用跨模态一致性分数加权一个可学习表征，使其与多模态表征分离为两个独立的向量，从而允许更多跨模态信息能够被表征于多模态表征中。

本文的网络设计如上图所示，首先，为了解耦图像模式和图像语义特征，尽可能防止特征冗余重复，在图像模式分枝中使用 CNN 结构，并加入 BayarConv 作为预处理，不使用图像增强（包含旋转、调色等），该滤波器作为可学习高通滤波器，可以保留图像中高频信息，有利于过滤图像语义。

在图像语义分枝中，我们不使用常规的 ViT 或者 Swin，而是尝试使用凯明大神比较新的 MAE 作为预训练网络，并使用图像增强，保证该分枝输入与图像模式分枝不同，且更有效学习图像全局信息。粗分类器、跨模态一致性分类器与最终决策阶段使用的分类器都是简单的 MLP 结构。

跨模态一致性学习与 Chen 等人提出的方法相似，将训练集中真新闻的图文进行随机重组得到“图文不匹配”新闻，并将原始真新闻设为“图文”匹配新闻，令跨模态一致性分类器就新标签进行预测。该分类器的预测结果用于加权一个独立可学习的向量用于告知决策过程该新闻的一致性程度，更多多模态信息则能够保留在多模态特征中。

本文提出的算法总结如下：

本文在 Weibo、Weibo21 与 Gossip 数据集上验证了算法的有效性，结果显示，本文提出的方法能够在三个数据集上的整体检测结果优于一系列最近提出的跨模态虚假新闻检测方法。

同时，对于粗分类器是否会由于 1）过拟合 2）对于假新闻由于无法从单一模态提取得到异常信息造成欠拟合，从而导致方案整体性能随着训练过程出现下降，上图展示了在 Gossip 与 Weibo 数据集上的训练时各粗分类器与跨模态一致性分类器准确率曲线。

可以看到，在 20-30 轮训练时，模型的性能可以达到最佳，而过多或者过少的训练则确实会导致一些粗分类器发生过/欠拟合现象，同时，粗分类器准确率低于最终决策分类器的准确率，文本粗分类器准确率在所有三个数据集上都与最终决策分类器准确率最为接近，也意味着对许多虚假新闻，文本的真假程度对整条新闻的真实性影响很大。

最终，我们打印了不同粗分类器与跨模态一致性分类器配对使用的加权函数，可以看到，多数加权函数呈现倒 V 形状，也即当粗分类器能够非常确信其判决结果时，在送入决策过程前抑制对应特征。由于加权函数通过学习得到，我们认为为了得到更鲁棒且全面的虚假新闻检测结果，决策机制鼓励尽可能使用更多角度、更多模态的信息，防止单一模态“一家独大”（例如文本），这与人类做谨慎判断的过程也是相符合的。

更多阅读