TKDE 2023 | 交叉学科项目申请书学科代码生成

科技

2023-03-20 05:03

©PaperWeekly 原创 · 作者 | 乔子越

单位 | 中国科学院计算机网络信息中心

研究方向 | 文本分类

摘要

本文介绍来自中国科学院大学、中佛罗里达大学、澳门大学与香港科技大学（广州）的作者们提出的一种交叉学科科技文本层次分类算法，应用于项目申请书的学科代码生成。

论文标题：

Hierarchical Interdisciplinary Topic Detection Model for Research Proposal Classification

论文地址：

https://www.doi.org/10.1109/TKDE.2023.3248608

近期，随着一年一度的国家基金委项目申请期拉开序幕，如何为科学家撰写的基金项目申请书选择合适的学科代码成为了不少年轻科学家头疼的话题（前序报道见中国科学报）：

https://www.kepuchina.cn/more/202110/t20211006_3069095.shtml

科研人员撰写项目申请书，资助机构对研究项目申请书进行同行评审，并决定拨款奖项。这一直是科研人员获得经费的主要机制。以国家基金委的项目申请为例，在项目的申请和评审过程中，往往需要研究人员手动提交项目申请书的学科代码，这代表着该项目申请书的研究主题，然后，根据这些学科代码分配相关的评审人。

然而，由于科研人员之间存在的认知差异，造成了学科代码的填写可能存在不准确，不一致，甚至存在有的科研人员为了更好地通过评审而故意选择容易获得资助的学科代码的情况。尤其随着近年来各学科的发展，越来越多的科研人员开始开展跨学科的研究，造成了其项目申请书往往需要两个学科代码。如何更精确，更有效的填写跨学科项目申请书的学科代码，以提升项目评审的公平性是一个新的挑战。

在这项研究中，作者与中国国家自然科学基金会合作，利用 AI 技术提出一个自动跨学科主题路径检测模型，可以根据项目申请书的标题，摘要，关键词等信息，自动生成其学科代码，且能够自动检测出交叉学科的申请书，为其生成交叉学科代码。

具体而言，本工作首先提出了一种层次的 Transformer 来提取项目申请书的文本语义信息。然后，本工作设计了一个跨学科知识图，并利用图卷积神经网络学习每个学科的表示，以提取跨学科知识。在提取语义和跨学科知识后，在预测阶段，本工作设计了一个逐层级的预测组件，以融合两种知识表示并检测每个项目申请书的跨学科主题路径。

实验部分，本工作在三个真实数据集上进行了广泛的实验，并邀请了基金委的专家进行评估，以展示该论文所提出的模型的有效性。

简介

项目申请书这一类科技文本的主题推理的主要挑战来自于项目的撰写者所理解的学科体系可能与项目管理者所编撰的学科体系之间有一些误差，而这些误差会导致部分学科主题代码漏选或者误选，从而导致不公平的评审问题。例如一份来自生命科学与信息科学的交叉学科工作，如果直接送审到生命科学的专家而不考虑信息科学主题，那这份工作的创新性和对研究方法的评估可能会有偏差。如何建模交叉学科知识来辅助模型预测？

此外，从模型的角度来看，项目申请书与一般的长文本建模场景不一致，其一般包含若干类别、并带有不同语义的长短文本，例如标题、摘要、关键词等。而这些文本在由专家进行的手工科技文本分类场景中可能承担不同的作用，例如专家可能可以简单的通过阅读标题来确定申请书的主要学科从属，但如果需要进行更细粒度的分类，也许需要研读申请书的摘要或是正文。

最后，层次化的学科体系本质上来说是一类由专家编撰和设计的具有层次信息的标签系统，具有自反性、非对称性和传递性。如何利用这一类标签的层次特点减少模型在预测时的困难？

上图是交叉学科科技文本推理的例子，一份包含多类别文本的交叉学科科技文本（左图 1）将会在包含大量学科主题的层次标签体系（右图 1）下推理得出一到两条主题路径（中间图）。例如在这个例子里的左侧一条路径中，F 表示信息科学，F06 表示人工智能，F0601 表示人工智能基础。

针对上文提到的三个任务的特性，本文设计了一种基于 Transformer 的迭代式主题推理层次多标签分类模型：语义抽取部分（Semantic Information Extractor）设计了一个层次化的 Transformer 架构，来获取并融合不同类别文本的语义信息，交叉学科主题抽取（Interdisciplinary Knowledge Extractor）通过一张预先构建的交叉学科知识图获取层次学科体系上每个标签的表达。

信息融合部分类似于 Transformer Decoder，将会自适应地融合由语义抽取获得的各部分文本的语义表征与交叉学科主题抽取初始化的各历史预测结果的交叉表征，并结合注意力机制随着推理粒度的加深改变对每一部分的关注度。

最后，层次推理将会迭代地更新历史预测信息并推理新的主题路径。该迭代架构同时可以保证模型能够在专家提供粗粒度标签的场景下模型进行接续预测，补全剩余的细粒度标签。

实验结果

实验部分主要在三个交叉度依此提高的 RP-all、RP-bi、RP-differ 数据集上进行，使用了两个多标签分类的评价指标 Micro-F1 与 Macro-F1。

实验结果表明模型在推理过程中不但能够在整体上取得优秀的表现，同时，在分层预测的评估中，模型也能取得最好的表现。各部分的消融实验也证明了模型设计的不同组件对于该场景下主题推理的有效性。

除了使用多标签分类指标评价外，本文还研究探讨了推理过程具体的有效性，在与基金委专家沟通后，本工作将不同层级的错误用带权值的编辑距离来定量评估（Interdisciplianry Distance，交叉距离），每一个层级出现错误的惩罚分别为 {1, 10, 30, 50}。例如真实标签在第四层的主题标签为 A010101 而模型在该层推理出 B010101 时，该案例与真实值的距离为 50。

同时，实验还统计了不同层级出现不同错例的情况，如 Lack 表示模型在之前层级停止了预测，TooMuch 表示模型未在正确层级停止预测，Wrong 表示模型预测出了一个不符合层次依赖的标签，而 Other 表示其他所有错误情况。