Redian新闻
>
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

公众号新闻



  新智元报道  

编辑:Mindy
【新智元导读】图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。
图无处不在。
互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。
但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能理解的文本是一项非常复杂的任务。
在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

论文地址:https://openreview.net/pdf?id=IuXR1CCrSi

使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程
他们还创造了一个名为GraphQA的基准,用于研究不同的图推理问题解决方法,并演示了如何以一种让LLM能够解决图形相关问题的方式来表述图相关问题。
使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。
GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。

使用GraphIQA对LLMs进行推理的框架
虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。
同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:
节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。
边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。
最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。

图形编码函数的例子

LLMs表现怎么样呢?


研究团队在GraphOA上进行了三个关键实验:
  1. 测试LLMs处理图形任务的能力
  2. 测试LLMs的大小对性能的影响
  3. 测试不同图形形状对性能的影响
在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。
但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

基于不同任务准确度的各种图编码器函数的比较
在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。
就结论而言,在图形推理任务中,规模更大的模型表现更好,
然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。
即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响
在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。
结果得出,图的结构对LLMs的性能有很大影响。
例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。
但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。

在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始


在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。
在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。
同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。
这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。
参考资料:
https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率张钹院士:从大语言模型到通用人工智能三个方面浅析数据对大语言模型的影响我特别想收养这个孩子逛台北的年货大街(多图)OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama3ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量FuseLLM:大语言模型的知识融合!《丝路之约》&《牧马城市》比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3博后招募 | 南方科技大学荆炳义教授招收大语言模型/机器学习方向博士后微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|早起看早期揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!登Nature子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻MIT最新研究:什么样的语言最有可能激活大脑的语言处理中心?集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|36氪首发用大语言模型控制交通信号灯,有效缓解拥堵!大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午【七律】銀婚贈友人《扫花游 - 听雪》ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架微软亚研院新作:让大模型一口气调用数百万个API!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。