Redian新闻
>
​WWW 2023 | 元数据对科学文献分类的影响:一项跨领域跨模型的研究

​WWW 2023 | 元数据对科学文献分类的影响:一项跨领域跨模型的研究

科技


©PaperWeekly 原创 · 作者 | 张彧
单位 | UIUC计算机系博士生
研究方向 | 文本挖掘

本文研究了科学文献的元数据,包括其所发表的会议/期刊(venue)、作者(author)、参考文献(reference),对于文献的多标签细粒度文本分类的影响。
与之前的工作大多集中在计算机科学与生物医学的论文不同,本文考虑了 19 个不同的领域(如:物理学、环境科学、经济学、历史学等)以及 3 种典型的多标签文本分类模型(即:基于词袋模型的分类器、基于序列模型的分类器、基于预训练模型的分类器)。在每一种情况下,作者研究了加入元数据作为额外的特征是否可以显著提升科学文献分类的准确性。

本文还提出了一个大型的基准数据集 MAPLE,涵盖了跨越 19 个领域的超过 1190 万篇科学文献。每个领域中的总类数从约 700 到约 64000 不等,每篇文献包含了其标题、摘要、元数据以及相关的类标签。MAPLE 不仅可以用于科学文献分类的研究,还能用于其它文本挖掘和图挖掘任务的评估。


论文题目:
The Effect of Metadata on Scientific Literature Tagging: A Cross-Field Cross-Model Study

收录会议:

WWW 2023

论文链接:

https://arxiv.org/abs/2302.03341

代码链接:

https://github.com/yuzhimanhua/MAPLE

数据集链接:

https://zenodo.org/record/7611544



研究背景

由于科学文献数据爆炸式的增长,我们需要对其进行细粒度的分类,这样可以使得研究人员快速地检索和跟进他们研究领域内的文章。下图给出了一个例子:



这篇文章需要被分类到 “World Wide Web”、“Webgraph”、“Link Farm” 等类。注意到,除了文本信息之外,元数据信息对于分类也可能有帮助。例如,文章所发表的会议 WWW 提示了其与 “World Wide Web” 的相关性,作者与参考文献可能对预测更细粒度的类 “Webgraph” 有所帮助。
之前利用元数据帮助科学文献分类的工作 [1,2] 大多集中在计算机科学和生物医学领域。但是,在其它领域中,元数据的性质可能会有所不同。例如,一篇计算机科学论文若发表在 KDD,我们可以知道它与 “Data Mining” 的相关性,但无法单靠 venue 做更细粒度的分类(例如论文属于 “Graph Mining” 还是 “Text Mining”)。
相比之下,历史学的venue(例如 Journal of Roman Archaeology)可能同时帮助预测粗粒度的类 “Archaeology” 和细粒度的类 “Roman Archaeology”。再如,一篇物理学论文可能有几十位作者和几十篇参考文献,其中会含有噪声干扰此论文的分类;一篇历史学论文可能仅有 1 位作者和 5 篇参考文献,元数据含有的噪声也相对较少。
受此启发,本文作者研究了元数据对 19 个不同领域中科学文献分类任务的影响。作者考虑了 3 种不同的分类器:基于词袋模型的 Parabel [3]、基于序列模型的 Transformer [4]、基于预训练模型的 OAG-BERT [5]。根据实验结果,作者有以下发现:
  • 元数据的效果在不同的领域和分类器之间差异显著。一般来说,venue 在几乎所有情况下都是有益的,而 author 和 reference 的效果高度取决于领域、分类器和所需的分类粒度。

  • 元数据的效果往往在相近的两个领域中类似。例如,生物学和医学都属于生命科学,而 3 种元数据的效果在这两个领域中基本上是一致的。这意味着在一个领域中使用元数据的经验可以推广到另一个类似的领域。

  • 尽管基于 Transformer 的模型在很多文本任务中占据主导地位,但我们展示了对于多标签、细粒度的论文分类,简单的词袋分类器在许多情况下表现相当好,并且可以更有效地利用不同类型的元数据。




数据与模型

2.1 数据

作者利用 Microsoft Academic Graph 构建了如下 20 个数据集:


其中计算机科学有 2 个数据集,分别含有来自顶刊(根据 _h_-index)和顶会(根据 CSRankings)。其他 18 个领域各有 1 个数据集,来自顶刊(根据_h_-index)。

以上数据集的类标签来自 Microsoft Academic Graph。除此之外,作者还抽取了上述的生物学、化学、医学论文的 MeSH 类标签,以此构建了如下 3 个数据集。



2.2 模型
作者考虑了3种不同的文本分类器以及它们如何利用元数据。

2.2.1 基于词袋模型的分类器:Parabel [3]

当只使用文本时,词袋模型将每篇论文 表示成一个tf-idf向量,其中词 对应的值为
这里, 表示整个训练集中的论文。
当需要加入元数据时,只需相应定义元数据的 tf 和 idf 值,其中 tf 只能为 0 或者 1,代表该 venue/author/reference 是否出现在此论文中。据此,元数据 对应的值为
将词袋向量 和“元数据袋”向量 拼接在一起作为输入,即可让 Parabel 在分类时考虑元数据。
为了执行多标签分类,Parabel 学习了多个标签树的集成,其中每个标签树都是通过将类标签递归地分成两个平衡组,直到每个节点包含少于一定数量的标签为止所获得的。在标签划分后,Parabel 学习了一个分层判别分类器。具体而言,它在每个非叶节点上,学习了一个分布来确定应遍历哪些子节点;在每个叶节点上,学习了一个分布来预测相关的类标签。更多技术细节可以参考 [3]

2.2.2 基于序列模型的分类器:Transformer [4]

当只使用文本时,可以将如下序列输入 Transformer:
这里作者使用了多个 [CLS],原因是类空间中可能含有上万个类,而一个 [CLS] 的表示向量只有几百维,其中带有的信息不足以对上万个类做出预测。因此,在 Transformer 编码之后,可以将多个 [CLS] 的表示向量连接起来再通过一个线性层进行预测。

这里,多标签分类被转化为对每个类进行 binary 预测,损失函数为 binary 交叉熵。

当需要加入元数据时,只需将输入序列改为:
Transformer的全连接注意力机制将会在编码时考虑元数据与文本之间的信息交互。

2.2.3 基于预训练模型的分类器:OAG-BERT [5]

许多预训练模型(例如 BERT 和 SciBERT)主要考虑文本信息的编码而忽略了元数据。本文作者使用了 OAG-BERT 作为预训练模型,因其在预训练阶段对 venue 和 author 等信息也做了 masked entity prediction。

当只使用文本时,OAG-BERT 的编码过程如下图:
当需要加入元数据时,OAG-BERT 的编码过程如下图:
作者将所有 token 编码后的表示向量取平均作为整篇文章的表示向量,并以此训练了一个 Parabel 分类器。



实验结果

作者在 19 个领域中分别测试了 3 种分类器的表现,其中每一种分类器分别会以纯文本、文本 + venue、文本 + author、文本 + reference 作为输入。
3.1 总体分析
作者发现,考虑 venue 信息在几乎所有情况(不同领域,不同分类器)下对科学文献分类都是显著有益的。而 author 和 reference的影响则取决于领域和分类器:当使用 Parabel 和 OAG-BERT 时,author 和 reference 更可能增加分类的准确率;当使用 Transformer 时,author 和 reference 更可能降低准确率。在3个带有 MeSH 类标签的数据集上,作者观测到了相似的结果,更多细节可以参考本文的附录。

3.2 元数据在不同领域的影响

根据实验结果,作者使用一个 24 维的向量表示元数据在一个科学领域内的影响。向量中的每一维表示加入某一种元数据后,分类器的准确率的相对变化。如果将每一个领域的向量利用 t-SNE 投射到 2 维空间中,则可以得到如下结果:

根据之前的研究 [6, 7],图中每个领域按照其所属的大类被标注上了颜色。我们可以发现 相同颜色的领域通常较为靠近。这表明同属一个大类的领域中,元数据对于科学文献分类的影响是相似的。也就是说,在一个领域中使用元数据的经验可以推广到另一个类似的领域。
3.3 元数据在不同分类粒度的影响

对于元数据可以增加分类准确率的情况,作者考虑了其对于预测每一层标签的影响(第一层的标签更粗粒度,例如 “Data Mining”;第三层的标签更细粒度,例如 “Gradient Boosting”)。

可以看到,即便对于细粒度的文献分类,venue 仍然是有帮助的。这对于计算机科学来说并不直观。事实也确实如此,venue 在计算机科学领域对第三层分类的影响是十分微小的。然而,作者发现在其它领域(例如历史学和哲学)中,有些期刊(例如 “Journal of Roman Archaeology” 和 “Mediaeval Studies”)确实可以提示文献与更细粒度的标签的相关性。



结论

本文构建了一个大规模的基准数据集 MAPLE,用于跨越 19 个领域的科学文献分类。其领域覆盖范围比之前所使用的数据集更为广泛。作者全面评估了不同类型的多标签分类器在加入元数据特征后在科学文献标注中的性能。实证研究揭示了一些有关元数据对文献分类影响的普遍规律,以及一些在计算机科学和生物医学领域之外的领域中才有的现象,这些现象在以前的研究中没有被探讨。

参考文献

[1] Zhang et al., MATCH: Metadata-Aware Text Classification in a Large Hierarchy. WWW 2021.

[2] Ye et al., Beyond Text: Incorporating Metadata and Label Structure for Multi-Label Document Classification using Heterogeneous Graphs. EMNLP 2021.

[3] Prabhu et al., Parabel: Partitioned Label Trees for Extreme Classification with Application to Dynamic Search Advertising. WWW 2018.

[4] Xun et al., Correlation Networks for Extreme Multi-label Text Classification. KDD 2020.

[5] Liu et al., OAG-BERT: Towards a Unified Backbone Language Model for Academic Knowledge Services. KDD 2022.

[6] Rosvall and Bergstrom, Multilevel Compression of Random Walks on Networks Reveals Hierarchical Organization in Large Integrated Systems. PLoS One 2011.

[7] Yin et al., Public Use and Public Funding of Science. Nature Human Behaviour 2022.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PA/Milton/BBN/Commonwealth私校升学数据对比研究发现ChatGPT能影响人类的道德判断;科技部拟颁科技伦理审查办法:涉及人类胚胎、个人信息需审查|环球科学要闻ChatGPT-31:卒中领域的开放数据库。已有中国学者借助这些数据发表了自己的研究论文关于咖啡的健康影响,终于有了篇严谨的研究|科学60秒5分钟神操作!文献检索又准又全,查文献再也不求人!留学移民集训汉奸反华反共摇篮微档---唐德刚入境美国档案美国联邦政府对科学的投资,经历了怎样的变化?WWW 2023 | 如何设置温度系数?用于推荐的自适应调节表征模长的方法WWW 2023|快手:通过强化学习提升用户留存哎哟哟,这是多自信啊医学文献王-网页文献助手浏览器插件发布多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构Nature|ChatGPT和生成式AI对科学意味着什么?太绝了!文献检索如何又快又准,师姐靠这个隐藏技巧5分钟get目标文献……2023国自然医学领域研究热点:[IF37] 基础科研人员发高分文献2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一Facebook用户现在可以申请在 7.25 亿美元数据隐私和解中的份额​WWW 2023 | 无图协同过滤ChatGPT和生成式AI对科学意味着什么?2023 春 祝姐妹们周末快乐!本周六,快手&高瓴人工智能学院启动WWW23论文分享会,探讨推荐搜索领域热点(30个现场名额)国际要闻简报,轻松了解天下事(03WWW 2023 | 一键追更互联网技术国际顶会的最新科研进展!​WWW 2023 | 自监督多模态推荐系统救命!我还在找文献,上铺已经发了3分SCI!这个找文献节省70%时间!转:2023 回国探亲(5)总结22-23年NLP等在GNN领域最新的研究综述以及研究趋势我的第一件羽绒衣什么样的研究生是真正好的研究生【金融行业】明确分类标准,促进信托业务回归本源—简评《关于规范信托公司信托业务分类的通知》GPT-4模型会开创哪些新的研究方向?看看张俊林老师和国外研究者的建议法律翻译 | 小冲突,大影响:无人谈论的塔吉克斯坦与吉尔吉斯斯坦战争注意!加拿大航空突然严查这些人!大批华人受影响:被迫多交钱!人工智能对经济的中长期影响:一个宏观框架Eruope 2023BLS/LHS/Newton南北校公校升学数据对比我大概中了奥密克戎 XBB.1.5 病了2天 缓过来了诺奖得主珍妮弗·杜德纳:如何唤起对科学的热爱最近5年,这些SCI期刊还能发乳腺癌领域的个案+文献综述论文!(2023)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。