Redian新闻
>
ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱

ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】思维链已经out啦!想让大模型会推理还是得靠知识库:基座模型还是ChatGPT,最新思维图谱技术在多个基准数据集上实现巨大性能提升!


大模型虽好,但「一本正经的胡说八道」的问题该怎么解?


在金融、法律、医疗等严肃领域,幻觉问题一直是制约大模型落地应用的主要瓶颈。


如何弥补这部分缺陷,使更多行业能快速加入对新一轮生产力变革的探索,是当下AI研究的重要课题,其中,大模型(LLM)与知识图谱(KG)的融合来弥补前者的能力短板,是颇受关注的研究方向。


最近,来自IDEA研究院、微软亚洲研究院、香港科技大学、香港科技大学(广州)、厦门大学和美国南加州大学的研究团队推出Think-on-Graph(思维图谱)技术,通过LLM与KG的紧耦合交互,驱动LLM agent在知识图谱上「思考」,逐步搜索推理出最优答案。


论文地址:https://arxiv.org/abs/2307.07697

代码链接:https://github.com/IDEA-FinAI/ToG


下面,我们先用一个刁钻的问题来认识Think-on-Graph的「脑回路」:如何客观评价段誉和洪七公谁的武功更高强?(段誉出自《天龙八部》,洪七公出自《射雕英雄传》,两者未在同一部作品中出现。)


首先看看地表最强大模型GPT-4是怎么说的:



由于LLM是经由海量碎片化语料训练而成,此类线索分析型的推理问题确实对其挑战很大。从回答中不难看出,除了幻觉现象的出现之外,在比较两位人物的武功水平时,GPT-4着重罗列表象事实,缺乏深度的逻辑分析。


那么, Think-on-Graph是怎样解题的呢?



首先,图谱知识显示,六脉神剑是大理段氏最强武功,而一阳指是大理段氏常用武功,大模型由此判断「六脉神剑」强于「一阳指」;继而推理出段誉武功强于以一阳指冠绝江湖的一灯大师。


然后,又根据图谱上的「一灯大师与洪七公同属『华山四绝』」,推理出两者武功相当。最终,段誉>一灯大师,而一灯大师=洪七公,于是得出结论:段誉武功更高。


可见,融合了结构化知识与大模型推理能力的Think-on-Graph,不仅条理清晰,还提供了可追溯的推理链条。


LLM从「翻译官」变「跑腿」,与KG紧耦合实现深度推理


众所周之,大模型擅长理解、推理、生成与学习;知识图谱则因其结构化的知识存储方式,在逻辑链条推理上表现更佳,且具备更好的推理透明度与可信度。两者是互补度极高的好拍档,关键在于能否找到好的结合方式,据研究人员介绍,目前主流的方法有两类。


第一类是在模型预训练或微调阶段,将知识图谱嵌入到一个高维向量空间,并与大模型的嵌入向量相融合。


但此类方法不仅耗时、耗算力,也无法发挥知识图谱的许多天然优势(如:实时知识更新、可解释性、推理可追溯等)。


第二类路径则利用知识图谱的知识结构,通过prompt engineering来进行两者的融合,这之中又分松耦合、紧耦合两种范式。


 

松耦合范式中的LLM相当于「翻译官」,理解用户的自然语言输入后,将其翻译成知识图谱中的查询语言,再将KG上的搜索结果反向翻译给用户,这种范式对知识图谱本身的质量与完整度要求极高,忽略了大模型的内在知识与推理能力。

 

在Think-on-Graph所代表的紧耦合范式中,LLM变身「跑腿」,作为agent在KG的关联实体上一步一步搜索推理出最优答案。因此,在每一步推理中,LLM都亲自参与,与知识图谱取长补短。


在研究中,团队用以下例子展示了紧耦合范式的优势:堪培拉所在国家当前的多数党是哪个党派?


 

从上面例子中可以看出,ChatGPT由于信息滞后,给出了错误答案。


松耦合范式下,尽管引入了包含最新信息的KG,但由于缺少「多数党」信息,导致推理无法完成;而在紧耦合范式中,LLM自行推理出「议会制国家的政府首脑(总理)通常也是多数党领袖」,弥补了KG中的信息缺失,绕道推理出正确答案。


Think-on-Graph,高效的紧耦合新范式


据研究团队介绍,Think-on-Graph借鉴了Transformer的beam-search算法思路。该算法为一个可循环的迭代过程,每次循环需先后完成搜索剪枝、推理决策两个任务。


搜索剪枝用于找出最有希望成为正确答案的推理路径,推理决策任务则通过LLM来判断已有的候选推理路径是否足以回答问题——如果判断结果为否,则继续迭代到下个循环。


我们依然以「堪培拉所在国当前的多数党是哪个党派?」为例来解释。


 

案例:用搜索宽度N=2的beam-search实现Think-on-Graph推理


在搜索剪枝任务中,大模型从关键词Canberra出发,匹配到知识图谱中最接近(或一致)的实体,分别搜索了5个「关系→实体」对,并为它们打分(得分越高,则代表此新实体加入推理路径中,可正确回答问题的能力越高)。

       


将分数从高到低排序后,LLM保留了得分最高的2个,形成两条候选推理路径:

接下来,LLM对候选推理路径进行评估,并将结果以Yes/No的形式反馈给算法。


在案例中可见,LLM连续两轮否决了候选路径,直到完成第三轮迭代时,LLM才判断已获取回答问题的充分信息,因此停止算法迭代,向用户输出答案(该答案确为正确答案)。

 


大模型推理如何更可信?可解释、可追溯、可修正


研究团队表示,Think-on-Graph算法还有效提升了大模型推理的可解释性,并实现知识的可追溯、可纠错与可修正。尤其是借助人工反馈与LLM推理能力,发现并修正知识图谱中的错误信息,弥补LLM训练时间长、知识更新慢的缺点。


为测试此能力,我们设计了一个实验:在前述「段誉与洪七公武功对比」案例的知识图谱中,故意掺入错误信息「大理段氏的最强武功是一阳指,一般武功是六脉神剑」。


   

可见,尽管Think-on-Graph根据错误知识得出了错误答案,但由于算法内置的「自我反思」能力,当判断答案可信度不足时,会自动回溯在知识图谱上的推理路径,检查路径中的所有三元组。


此时,LLM将利用自有知识,将疑似有误的三元组挑选出来,并向用户反馈分析与纠错建议。

 


7个新SOTA,深度推理较ChatGPT最多提升214%


研究在四类知识密集型任务(KBQA, Open-Domain QA, Slot Filling, Fact Checking)的共9个数据集上,对Think-on-Graph的表现进行了评估。


与IO、CoT、CoT-SC等不同prompting策略下的ChatGPT(GPT-3.5)相比,Think-on-Graph在所有数据集上的表现都显著更优。以Zeroshot-RE数据集中的对比为例,基于CoT的ChatGPT精度为28.8%,而同底座的Think-on-Graph精度为88%。


当底座模型升级为GPT-4后,Think-on-Graph的推理精度也明显提升,在7个数据集上取得了SOTA,剩余数据集中的CWQ上也十分接近SOTA。


值得注意的是,Think-on-Graph未在上述任何测试数据集上进行过监督学习性质的增量训练或增量微调,体现出超强的即插即用能力。


此外,研究者还发现,即便替换小规模的底座模型(如LLAMA2-70B),Think-on-Graph依然可在多个数据集上超越ChatGPT,这或可为大模型使用者提供一条低算力需求的技术路线选择。


参考资料:
https://arxiv.org/abs/2307.07697
https://github.com/IDEA-FinAI/ToG




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
背景提升学员|喜报!港中大、港理工、港科大、格拉斯哥、圣路易斯华盛顿offer来了!10年美债创16年新高!这类基金一骑绝尘,美科技股杀跌开启、港科技股起飞?无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!从“不容青史尽成灰”谈起惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)骁龙8 Gen 3处理器发布:CPU性能提升30%、GPU提升25%喜报!港中文、港科技营业了!开始发商科面邀!什么背景能收到offer?巴斯招生官来了!ICCV 2023 | 清华、ETH提出Retinexformer,刷新十三大暗光增强榜小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式冰雹和雷雨云能赚钱的GPT Store上线了!官方最佳榜单公布,ChatGPT被玩出花惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)“你”“我”“他”华为完成业内首个Wi-Fi 7 AP性能测试,刷新最快速率纪录;上海:实施大模型智能算力加速计划丨智能制造日报注意!港大、港科大、岭大3所港校已启动2024年内地招生!ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!喜报!悉尼大学、港大、纽大、港中文、诺丁汉offer来了!|背景提升学员红色日记 打苇机 8.26-31背景提升学员|喜报!港中文、港科大、悉尼大学、曼彻斯特大学、伦敦大学国王学院、布里斯托大学、南加州大学offer来了!ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%It is a bad idea to see your former love中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023两情难相知(十五)维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟华为&中科大提出TinySAM:手机就能实时跑的分割一切模型OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。