Redian新闻
>
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

公众号新闻



  新智元报道  

编辑:Mindy
【新智元导读】图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。
图无处不在。
互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。
但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能理解的文本是一项非常复杂的任务。
在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

论文地址:https://openreview.net/pdf?id=IuXR1CCrSi

使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程
他们还创造了一个名为GraphQA的基准,用于研究不同的图推理问题解决方法,并演示了如何以一种让LLM能够解决图形相关问题的方式来表述图相关问题。
使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。
GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。

使用GraphIQA对LLMs进行推理的框架
虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。
同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:
节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。
边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。
最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。

图形编码函数的例子

LLMs表现怎么样呢?


研究团队在GraphOA上进行了三个关键实验:
  1. 测试LLMs处理图形任务的能力
  2. 测试LLMs的大小对性能的影响
  3. 测试不同图形形状对性能的影响
在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。
但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

基于不同任务准确度的各种图编码器函数的比较
在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。
就结论而言,在图形推理任务中,规模更大的模型表现更好,
然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。
即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响
在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。
结果得出,图的结构对LLMs的性能有很大影响。
例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。
但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。

在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始


在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。
在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。
同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。
这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。
参考资料:
https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型MIT最新研究:什么样的语言最有可能激活大脑的语言处理中心?腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准【七律】銀婚贈友人LLM综述出书了!人大高瓴赵鑫老师组发布全新大语言模型中文书WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型[COLING 2024教程] 多模态大语言模型MLLM系列教程我特别想收养这个孩子ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024逛台北的年货大街(多图)《扫花游 - 听雪》ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率微软亚研院新作:让大模型一口气调用数百万个API!OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量ICML 2024 | 大语言模型如何表征不同信念?FuseLLM:大语言模型的知识融合!红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!超越Llama-2!微软新作Phi-3:手机上能跑的语言模型AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama3比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐《丝路之约》&《牧马城市》ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。