ACL 2022 | KGTuner: 针对知识图谱学习的高效超参数搜索算法

科技

2022-06-02 11:06

©PaperWeekly 原创 · 作者 | 张永祺

单位 | 第四范式

研究方向 | 知识图谱表示与推理

论文标题：

KGTuner: Efficient Hyper-parameter Search for Knowledge Graph Learning

收录会议：

ACL 2022

论文地址：

https://aclanthology.org/2022.acl-long.194.pdf

代码链接：

https://github.com/AutoML-Research/KGTuner

内容概要

超参数搜索，是机器学习模型获得良好性能的关键。对于知识图谱的学习来说，同样是一个重要问题，一方面超参数的好坏会严重影响模型性能，另一方面模型训练时间长，现有的超参数搜索算法在这一问题上一个个尝试不同超参数配置，往往效率低下。为解决这一问题，我们详细地分析了知识图谱学习中不同超参数的性质，及子图到全图的迁移能力。

基于分析，我们提出两阶段的超参数搜索算法 KGTuner，如图 1 所示，我们在第一阶段利用子图高效地探索大量超参数，并将性能最好的几组超参数配置迁移到全图上，在第二阶段进行微调。实验表明，两阶段搜索算法大大提升了超参数搜索效率，在不同的大规模知识图谱链接预测任务上，均获得了性能的提升。

▲ 图1. KGTuner: 两阶段超参数搜索算法

问题定义

首先，我们将知识图谱学习问题，抽象成图1所示的框架，共包括五个重要组成部分：打分函数（scoring function），负采样（negative sampling），损失函数（loss function），正则化（regularization）和优化方式（optimization）。给定打分函数，即模型后，对其他四个成分进行配置，即为知识图谱学习中的超参数配置过程。

▲ 图2. 知识图谱学习整体框架

表 3 列出了知识图谱学习问题中常见的超参数和其取值范围，不同超参数的取值，构成了一个个不同的超参数配置。

▲ 图3. 知识图谱学习中常见的超参数

整体的优化目标，可以定义为图4中的二阶段优化问题。从超参数搜索空间中获取一个超参数配置之后，我们训练模型参数，拿到验证集上的性能反馈，目标在有限的时间内，从表 3 的范围中，尽可能搜索到性能更好的超参数配置。

▲ 图4. 搜索问题定义

理解知识图谱学习中的超参数

超参数搜索过程中，最关键的问题是效率，影响图4中搜索问题效率的主要有三个方面：（1）超参数搜索空间的大小，决定了搜索范围；（2）反馈指标的曲面分布，决定了哪种模型可以更好地模拟超参数空间；（3）模型训练的开销，决定了评估单个超参数配置的效率。

为减小超参数搜索空间，我们首先通过控制变量法，得到表 3 中的不同超参数各自的性能表现分布，并依据分布图将超参数分为四类。（1）选项缩减，如图 5 第一排所示，有的超参数选项恒定最优或恒定最差，我们可以将最优的固定，或者将最差的剔除。（2）范围裁剪，如图 5 第二排所示，一些连续型超参的范围可以被缩减到性能更优的区域。（3）单调变化，对于批大小和表示维度这样的超参数，通常更大的取值效果更好。（4）无明显规律。

▲ 图5. 不同组超参数表现分布图。蓝色小提琴图度量排名分布，越低越好。橙色箱线图度量性能分布，越高越好

同时，我们对不同超参的变化一致性进行了评估，即改变一个超参数，其他超参数的排序的变化大小。对于一致性高的超参数，我们可以先搜索其他超参，最后再对其进行微调。如图 6 所示，批大小和表示维度的一致性较高，其搜索可以与其他超参数解耦开。

▲ 图6. 超参数一致性

我们在图 7 中绘制了性能表现的曲面，和三个近似模型，即随机森林（RF）、高斯过程（GP）、多层感知器（MLP）的近似曲面。可以看出，随机森林模型的近似程度明显更好，更适合当前问题这样复杂的超参数空间。

▲ 图7. 性能曲面分布及近似模型曲面分布

最后我们研究了一些典型超参数的训练评估开销，及子图到全图的迁移能力。如图 8 所示，大的批量和大的表示维度会明显增大训练评估开销，而其他超参数对开销的影响不大。考虑到批大小和维度大小具有较高的一致性，我们可以先利用小的批量和参数维度去搜索其他超参，最后再增大二者的取值。

▲ 图8. 典型超参数的训练评估开销

我们通过相同一组超参数配置，在子图和全图上评估的一致性，来度量子图的迁移能力。首先，对于不同子图采样方法，如图 9 左下所示 multi-start random walk 的子图采样方式是更优的选择。对于采样子图大小的比例，如图 9 右下所示 20%~30% 的节点数目能更好的平衡迁移能力和评估效率。因此，我们选择通过 multi-start random walk 的方式来采 20% 的结点，加快超参数配置的评估。

▲ 图9. 全图到子图评估的迁移能力

完整算法如图 10 所示，在第一阶段，我们利用采样好的子图、小的批大小和参数维度，并以随机森林为预测模型来探索大量的超参数配置。第一阶段中前十的样本将被放入第二阶段，将其批大小和参数维度增大，恢复到全图上，进行最后的微调。最终全图上效果最好的超参数配置，即为最终搜索到的超参数。

▲ 图10. KGTuner完整算法

实验

实验效果，KGTuner 在知识图谱链接预测任务上进行了测试，包括样本内的数据（即超参理解实验所用的数据）WN18RR、FB15k-237，及样本外的大规模图谱 ogbl-biokg、ogbl-wikikg2。可以看到，大多数模型的效果，在 KGTuner 调参之后，性能均获得了提升。

▲ 图11. KGTuner对不同知识图谱链接预测模型调参结果对比

搜索效率方面，KGTuner 与传统超参搜索算法，如 Random search、Hyperopt、Ax、SMAC、RF+BORE，和图网络超参搜索算法 AutoNE，进行了对比，如图 12 所示，KGTuner 在第二阶段一开始，就能找到比其他搜索算法更好的模型，因为 KGTuner 的算法设计同时考虑到了搜索空间、预测器和评估代价。

▲ 图12. 不同超参搜索算法对比，左图越大越好，右图越小越好

未来工作方向

由于 KGTuner 目前局限于单个三元组的模型，如 TransE、ComplEx 等，扩展到更多类型模型，如 CompGCN 等，利用图结构的模型，会是一个重要方向。除了超参数搜索之外，可以结合 AutoSF，实现超参数和模型的全自动化搜索。此外，整个算法目前缺少理论层面的理解，加强了理论分析，将更有利于算法的优化和完善。

招聘启事

清华大学电子系机器学习课题组招聘博士后，合作导师为姚权铭助理教授。

课题组主页：

https://lars-group.github.io/

招聘详情：

清华大学电子系姚权铭教授招聘机器学习方向博士后