WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型
©作者 | 莫燕虎、孙铭蔚
来源 | 北邮 GAMMA Lab
https://arxiv.org/pdf/2402.07197.pdf
代码链接:
引言
图模型(GM)如图神经网络(GNN),利用节点特征和图结构来学习表征并预测,在多种领域表现出色,但 GM 通常局限于预定义任务如节点分类,难以适应新的类别和任务。而大型语言模型(LLM)如 ChatGPT,在处理开放式任务和理解自然语言指令方面显示了巨大潜力,推动了跨模态研究的发展。
最近,将 LLM 应用于图的工作可分为两类,如下图 (a)-1 和 (a)-2 所示:1)利用 LLM 以其海量知识增强节点的文本属性,然后通过 GM 生成预测;2)或者是将节点以 token 或文本的形式,直接输入给 LLM 来作为独立的预测器。
然而,这些方法无法同时解决处理预定义的任务和开放式任务。这就很自然地提出了一个问题:「我们能否在图学习领域建立一个既能解决预定义任务又能解决开放式任务的模型?」
我们提出的 GraphTranslator 的主要目标是将图模型与 LLM 对齐,以便利用 LLM 的能力去执行开放式任务。具体而言,GraphTranslator 由几个模块组成:
Producer模块
为了训练不同模态的数据与 LLM 进行对齐,需要高质量的对齐数据。例如,计算机视觉领域 LLM 需要 {图像,描述文本},而图模型 LLM 则需 {图表征,描述文本}。因此,我们设计了一个流程来引导 LLM 创建图节点描述,涵盖三个方面:
节点信息文本:总结节点属性并生成描述,反映节点嵌入中的信息。
邻居信息文本:采样一阶邻居节点,整合它们的信息以便总结。
共性信息文本:根据节点和邻居信息文本整合共性,推断节点间的相似性。
为解决 GM 与 LLM 之间的模态差异,我们引入了 Translator 模块将节点嵌入转换为 token 表示。受到 BLIP2 [3] 的启发,我们采用两阶段训练方法逐步缩小 Graph 与 LLM 的差距。
第 1 阶段:训练 Translator 进行 GM 和文本的对齐。
实验
我们在真实世界的数据集上进行了实验,包括工业数据集淘宝和 ArXiv 数据集。
Zero-Shot实验性能比较
在 Taobao 和 ArXiv 的实验中,我们的 GraphTranslator 模型取得了优于大部分基准模型的性能,证明它有效地利用了 LLM 的能力。相较于基于 BERT 的方法,GraphTranslator 更擅长处理需求复杂的 zero-shot 任务。相比直接使用 LLM 的方法,GraphTranslator 通过将节点嵌入转换成软提示,减少了处理大量堆叠信息的噪声和复杂性,提升了性能。
消融实验
为验证我们的 GraphTranslator 训练策略,我们将其与只完成“阶段 1 训练”和“阶段 2 训练”的变体对比。结果表明,仅阶段 1 可以有效对齐图嵌入和文本,但未映射到 LLM 的语义空间,导致理解语义信息的能力不足。仅阶段 2 虽连接了图嵌入与 LLM,但缺乏对节点嵌入和文本的深入理解,性能不理想。结合两阶段训练的 GraphTranslator 为 LLM 提供对图信息的全面理解,取得了最优结果。
GQA实验
我们在淘宝数据集上进行了基于 Graph 的问答实验,以探索 GraphTranslator 在开放式应用中的潜力和商业价值。通过模拟多轮对话的 LLM,测试了 GraphTranslator 在处理未知图节点表征的信息提取、理解和推理能力。为此,我们从 100 个图节点构建了一个评估集,并设计了三个问题:
Q1:用户兴趣概述。
Q2:朋友间共同兴趣汇总。
Q3:分析用户之间的友谊原因。
GraphTranslator 为第一个问题生成软提示,而将用户及其邻居的属性文本直接提供给 ChatGLM2-6B 进行比较。利用人类评估者和 ChatGPT 进行开放式问题的定量分析,我们采用四级评分系统来评价回答的准确性和相关性。
评分-A:答案正确简洁,信息正确,推理准确。
评分-B:答案是合理的,有小错误或不完美。
评分-C:答案与问题相关,但内容有明显错误或不准确。
评级-D:该回答不相关或完全无效。
观察比较结果显示,GraphTranslator 在使用未知图节点嵌入作为 LLM 提示时,共获得了 210 个 A 级评分,超过了直接输入原始文本的 Vanilla LLM 的 203 个 A 级评分,显示出其优越性能。此成果得益于 GraphTranslator 根据 Producer 生成的低噪声文本进行训练,使其能从节点嵌入中提取高质量信息。
总结与展望
首先,Producer 在确定 Translator 质量中至关重要,可以考虑加入更多节点拓扑信息以减少信息丢失。若更大规模的 LLM 和新技术,如 Chain-of-Thought,可能会提高模型性能。
实验中,zero-shot 分类任务有标签进行定量分析,而 GQA 任务只通过案例展示性能。设计评估数据集和相应指标,对开放式任务(如图理解、解释和多轮对话)进行全面定量评估,对未来研究很重要。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者