WWW 2023 | 元数据对科学文献分类的影响：一项跨领域跨模型的研究

2023-03-17 04:03

©PaperWeekly 原创 · 作者 | 张彧

单位 | UIUC计算机系博士生

研究方向 | 文本挖掘

本文研究了科学文献的元数据，包括其所发表的会议/期刊（venue）、作者（author）、参考文献（reference），对于文献的多标签细粒度文本分类的影响。

与之前的工作大多集中在计算机科学与生物医学的论文不同，本文考虑了 19 个不同的领域（如：物理学、环境科学、经济学、历史学等）以及 3 种典型的多标签文本分类模型（即：基于词袋模型的分类器、基于序列模型的分类器、基于预训练模型的分类器）。在每一种情况下，作者研究了加入元数据作为额外的特征是否可以显著提升科学文献分类的准确性。

本文还提出了一个大型的基准数据集 MAPLE，涵盖了跨越 19 个领域的超过 1190 万篇科学文献。每个领域中的总类数从约 700 到约 64000 不等，每篇文献包含了其标题、摘要、元数据以及相关的类标签。MAPLE 不仅可以用于科学文献分类的研究，还能用于其它文本挖掘和图挖掘任务的评估。

论文题目：

The Effect of Metadata on Scientific Literature Tagging: A Cross-Field Cross-Model Study

收录会议：

WWW 2023

论文链接：

https://arxiv.org/abs/2302.03341

代码链接：

https://github.com/yuzhimanhua/MAPLE

数据集链接：

https://zenodo.org/record/7611544

研究背景

由于科学文献数据爆炸式的增长，我们需要对其进行细粒度的分类，这样可以使得研究人员快速地检索和跟进他们研究领域内的文章。下图给出了一个例子：

这篇文章需要被分类到 “World Wide Web”、“Webgraph”、“Link Farm” 等类。注意到，除了文本信息之外，元数据信息对于分类也可能有帮助。例如，文章所发表的会议 WWW 提示了其与 “World Wide Web” 的相关性，作者与参考文献可能对预测更细粒度的类 “Webgraph” 有所帮助。

之前利用元数据帮助科学文献分类的工作 [1,2] 大多集中在计算机科学和生物医学领域。但是，在其它领域中，元数据的性质可能会有所不同。例如，一篇计算机科学论文若发表在 KDD，我们可以知道它与 “Data Mining” 的相关性，但无法单靠 venue 做更细粒度的分类（例如论文属于 “Graph Mining” 还是 “Text Mining”）。

相比之下，历史学的venue（例如 Journal of Roman Archaeology）可能同时帮助预测粗粒度的类 “Archaeology” 和细粒度的类 “Roman Archaeology”。再如，一篇物理学论文可能有几十位作者和几十篇参考文献，其中会含有噪声干扰此论文的分类；一篇历史学论文可能仅有 1 位作者和 5 篇参考文献，元数据含有的噪声也相对较少。

受此启发，本文作者研究了元数据对 19 个不同领域中科学文献分类任务的影响。作者考虑了 3 种不同的分类器：基于词袋模型的 Parabel [3]、基于序列模型的 Transformer [4]、基于预训练模型的 OAG-BERT [5]。根据实验结果，作者有以下发现：

元数据的效果在不同的领域和分类器之间差异显著。一般来说，venue 在几乎所有情况下都是有益的，而 author 和 reference 的效果高度取决于领域、分类器和所需的分类粒度。
元数据的效果往往在相近的两个领域中类似。例如，生物学和医学都属于生命科学，而 3 种元数据的效果在这两个领域中基本上是一致的。这意味着在一个领域中使用元数据的经验可以推广到另一个类似的领域。
尽管基于 Transformer 的模型在很多文本任务中占据主导地位，但我们展示了对于多标签、细粒度的论文分类，简单的词袋分类器在许多情况下表现相当好，并且可以更有效地利用不同类型的元数据。

数据与模型

2.1 数据

作者利用 Microsoft Academic Graph 构建了如下 20 个数据集：

其中计算机科学有 2 个数据集，分别含有来自顶刊（根据 _h_-index）和顶会（根据 CSRankings）。其他 18 个领域各有 1 个数据集，来自顶刊（根据_h_-index）。

以上数据集的类标签来自 Microsoft Academic Graph。除此之外，作者还抽取了上述的生物学、化学、医学论文的 MeSH 类标签，以此构建了如下 3 个数据集。

2.2 模型

作者考虑了3种不同的文本分类器以及它们如何利用元数据。

2.2.1 基于词袋模型的分类器：Parabel [3]

当只使用文本时，词袋模型将每篇论文表示成一个tf-idf向量，其中词对应的值为

这里，表示整个训练集中的论文。

当需要加入元数据时，只需相应定义元数据的 tf 和 idf 值，其中 tf 只能为 0 或者 1，代表该 venue/author/reference 是否出现在此论文中。据此，元数据对应的值为

将词袋向量和“元数据袋”向量拼接在一起作为输入，即可让 Parabel 在分类时考虑元数据。

为了执行多标签分类，Parabel 学习了多个标签树的集成，其中每个标签树都是通过将类标签递归地分成两个平衡组，直到每个节点包含少于一定数量的标签为止所获得的。在标签划分后，Parabel 学习了一个分层判别分类器。具体而言，它在每个非叶节点上，学习了一个分布来确定应遍历哪些子节点；在每个叶节点上，学习了一个分布来预测相关的类标签。更多技术细节可以参考 [3]。

2.2.2 基于序列模型的分类器：Transformer [4]

当只使用文本时，可以将如下序列输入 Transformer：

这里作者使用了多个 [CLS]，原因是类空间中可能含有上万个类，而一个 [CLS] 的表示向量只有几百维，其中带有的信息不足以对上万个类做出预测。因此，在 Transformer 编码之后，可以将多个 [CLS] 的表示向量连接起来再通过一个线性层进行预测。

这里，多标签分类被转化为对每个类进行 binary 预测，损失函数为 binary 交叉熵。

当需要加入元数据时，只需将输入序列改为：

Transformer的全连接注意力机制将会在编码时考虑元数据与文本之间的信息交互。

2.2.3 基于预训练模型的分类器：OAG-BERT [5]

许多预训练模型（例如 BERT 和 SciBERT）主要考虑文本信息的编码而忽略了元数据。本文作者使用了 OAG-BERT 作为预训练模型，因其在预训练阶段对 venue 和 author 等信息也做了 masked entity prediction。

当只使用文本时，OAG-BERT 的编码过程如下图：

当需要加入元数据时，OAG-BERT 的编码过程如下图：

作者将所有 token 编码后的表示向量取平均作为整篇文章的表示向量，并以此训练了一个 Parabel 分类器。

实验结果

作者在 19 个领域中分别测试了 3 种分类器的表现，其中每一种分类器分别会以纯文本、文本 + venue、文本 + author、文本 + reference 作为输入。

3.1 总体分析

作者发现，考虑 venue 信息在几乎所有情况（不同领域，不同分类器）下对科学文献分类都是显著有益的。而 author 和 reference的影响则取决于领域和分类器：当使用 Parabel 和 OAG-BERT 时，author 和 reference 更可能增加分类的准确率；当使用 Transformer 时，author 和 reference 更可能降低准确率。在3个带有 MeSH 类标签的数据集上，作者观测到了相似的结果，更多细节可以参考本文的附录。

3.2 元数据在不同领域的影响

根据实验结果，作者使用一个 24 维的向量表示元数据在一个科学领域内的影响。向量中的每一维表示加入某一种元数据后，分类器的准确率的相对变化。如果将每一个领域的向量利用 t-SNE 投射到 2 维空间中，则可以得到如下结果：

根据之前的研究 [6, 7]，图中每个领域按照其所属的大类被标注上了颜色。我们可以发现相同颜色的领域通常较为靠近。这表明同属一个大类的领域中，元数据对于科学文献分类的影响是相似的。也就是说，在一个领域中使用元数据的经验可以推广到另一个类似的领域。

3.3 元数据在不同分类粒度的影响

对于元数据可以增加分类准确率的情况，作者考虑了其对于预测每一层标签的影响（第一层的标签更粗粒度，例如 “Data Mining”；第三层的标签更细粒度，例如 “Gradient Boosting”）。

可以看到，即便对于细粒度的文献分类，venue 仍然是有帮助的。这对于计算机科学来说并不直观。事实也确实如此，venue 在计算机科学领域对第三层分类的影响是十分微小的。然而，作者发现在其它领域（例如历史学和哲学）中，有些期刊（例如 “Journal of Roman Archaeology” 和 “Mediaeval Studies”）确实可以提示文献与更细粒度的标签的相关性。

结论

本文构建了一个大规模的基准数据集 MAPLE，用于跨越 19 个领域的科学文献分类。其领域覆盖范围比之前所使用的数据集更为广泛。作者全面评估了不同类型的多标签分类器在加入元数据特征后在科学文献标注中的性能。实证研究揭示了一些有关元数据对文献分类影响的普遍规律，以及一些在计算机科学和生物医学领域之外的领域中才有的现象，这些现象在以前的研究中没有被探讨。

参考文献

[1] Zhang et al., MATCH: Metadata-Aware Text Classification in a Large Hierarchy. WWW 2021.

[2] Ye et al., Beyond Text: Incorporating Metadata and Label Structure for Multi-Label Document Classification using Heterogeneous Graphs. EMNLP 2021.

[3] Prabhu et al., Parabel: Partitioned Label Trees for Extreme Classification with Application to Dynamic Search Advertising. WWW 2018.

[4] Xun et al., Correlation Networks for Extreme Multi-label Text Classification. KDD 2020.

[5] Liu et al., OAG-BERT: Towards a Unified Backbone Language Model for Academic Knowledge Services. KDD 2022.

[6] Rosvall and Bergstrom, Multilevel Compression of Random Walks on Networks Reveals Hierarchical Organization in Large Integrated Systems. PLoS One 2011.

[7] Yin et al., Public Use and Public Funding of Science. Nature Human Behaviour 2022.

更多阅读