Redian新闻
>
国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力

公众号新闻



  新智元报道  

编辑:Lumina
【新智元导读】IMG Arena的高级软件工程师 Johan LAJILI认为在LLM能够理解概念、通过图灵测试时,我们就该承认它具有推理能力了。
GPT-4或LLM有推理能力吗?这是个存在已久的争议性问题。

有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索,并不具备真正的推理能力。

但也有大量的论文研究宣称LLM在多项推理任务中表现优异。

现在,来自IMG Arena的高级软件工程师 Johan LAJILI在自己的博客中发表了文章,坚定地支持LLM具有「智能」、「推理」以及「逻辑」的能力。

并且,面对现有的诸多对LLM推理能力的质疑,Johan也给出了相当详细的解释。

博客地址:https://lajili.com/posts/post-3/

那么,就让我们来看看,Johan是如何证明LLM是具备推理能力的。

LLM只是一个「字词接龙」?

「LLM只是一个预测下一个单词的模型」,这是反对LLM具有推理能力的主要观点。

这个观点通常来自于那些精通技术或人工智能的人,实际上,这个说法也是正确的。

在进行工作时,GPT-4每次只能预测一个单词(或者更具体地说是一个token)。用户给它一个提示或一段需要填充的文本时,它就会使用其神经网络找到最可能跟在后面的单词。

但是,将LLM的算法与智能手机键盘上的单词建议算法相提并论是相当短视的。

事实上,为了能够准确预测具有意义的句子,GPT-4必须具备一种表示概念的内部方式,例如「对象」、「时间」、「家庭」以及其他一切的可以被表述的存在。

这不仅是找到一个与前一个词有关联的词语,LLM还需理解这些词语的含义,才能准确地回复用户提出的问题。

而LLM对概念的理解是通过大规模训练建立起来的。

通过这个过程,可以证实LLM具有对「概念」的概念,即它们可以对物理世界中的事物以及它们之间的相互作用进行表示。

这意味着GPT-4不仅可以预测下一个词语,还可以理解更高层次的语义概念,使其能够生成连贯且有意义的文本。

但只能够理解「概念」还不足以进行推理,因为推理还要求能够组合不同的概念去解决问题。


LLM无法解答X谜题与逻辑问题

随着人工智能技术的进步,传统的图灵测试,即让人类分辨与自己对话的是不是人工智能,在ChatGPT出世后失去了效用。

现在的图灵测试变得更加复杂。

同时,一些声称能够检测出内容是否由人工智能生成的公司也陆陆续续出现,但这些尝试基本上都失败了。

此外,对于人工智能生成的内容,连专业的语言学家都有一半的概率都无法区分辨认。

这些尝试检测人工智能生成内容的失败恰恰证明了我们不再区分人与人工智能二者生成的内容。

现在对人工智能生成内容进行区分时,通常是通过一些明显的迹象,比如句子中出现的「根据我在2021年9月之前的训练...」此类表述。

但这对人工智能是不公平的。

如果我们唯一能用来识别它的是其自身的一些写作习惯,那么我们显然已经到了一个承认它的写作技巧与人类相似的阶段。

回到LLM能否推理和逻辑谜题的问题上。

Jeremy Howard在他的演讲中很好地解释了LLM如何进行推理。

通常,一个优秀的、系统的Prompt会对GPT-4的结果产生巨大影响。

如果用户能够详细说明问题背景和逻辑步骤,GPT-4通常可以解决这些谜题。

如微软亚洲研究院、北大、北航等机构的研究人员,通过97个回合的「苏格拉底式」严格推理,成功让GPT-4得出了「P≠NP」的结论。

论文地址:https://arxiv.org/abs/2309.05689

与人类不同,GPT-4没有思维和口头语言之间的区分。

对于人类来说,在不思考或下意识的情况下解决问题时,意味着问题非常简单,这本质上是凭记忆回答的。

如在计算2x8时,我们会非常迅速地得出答案是16,此时我们的大脑没有经过任何思考。

但如果是解决一个复杂的数学问题,或猜一个谜语,一个编程问题,我们在回答问题前就得在脑海中思考一番了。

而这,就是推理。

更复杂的问题可能需要我们首先考虑如何解决它,然后再尝试解答。

在这方面,GPT-4与人类没有区别。

但GPT-4的思考过程作为回应的一部分是可以被看到的。

也许未来的GPT-5将有一个「思考」部分的响应,但不会默认显示出来。

在GPT-4能否具有推理能力这一点上,实际上只涉及成本以及效率的问题。

就像在估算餐厅的餐费或进行税务申报时不会有相同程度的双重检查一样,让GPT-4对用户提出的每个问题都进行一番详细的论证是非常低效的。

LLM的幻觉和意识

关于LLM的另一个经典问题是这些模型存在着偏见和幻觉等问题。

这的确是一个棘手的难题,但这不代表LLM不能进行推理。

举个例子,人无法避免偏见。有些人会意识到这一点,而另一些人可能从未思考过这个问题。

在近代以前,人们还坚信地球是宇宙的中心,认为空气就是「无」。

但我们可以因此下定论说近代以前的人都没有推理能力吗?

同样地,模型会出错也不意味着模型不会推理。

因为正确或者持续正确并不是推理的定义,而是全知的定义。

但关于GPT-4是否存在意识,我的回答是没有。

意识的存在是非常哲学性的问题,一定程度上也取决于个人的看法。

但我认为意识是在很长一段时间内产生的,并需要一个「自我」来照顾。

每当用户打开GPT-4,选择在一个聊天框开始对话时,这实际上是在创造一个全新的存在。

对话结束后,这个存在要么被删除。要么保持在静态状态。

缺乏长期记忆,缺乏情感,不能自发地对外部刺激做出反应,都是阻碍意识产生的限制因素。

但我们也可以乐观地相信这些问题会在未来被解决。

也许,现在就有一群聪明人正在研究这些问题。

而GPT-4是否存在意识,只是关于「意识」这个谜题的一小部分。

参考资料:

https://lajili.com/posts/post-3/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何帮娃提高数学能力?2款培养逻辑推理的桌游该收了(幼儿园小学都能玩)图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」春游-话说叠字Corsica 2023爆笑历史漫画日历,每天解锁历史人物谜题,2024年笑够366天时间的湾 1谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化“李南央状告海关案”跟进报道(一百零九) ——继续拭目以待演绎推理和归纳推理的常见模式 | 为了让孩子不抢盐逻辑论证系列(4)博后招募 | 清华大学机器学习与推理(LARS)课题组招聘博士后/工程师清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩【解字】理解舒淇:没整,但确实变美了小杨哥年会放话:公司不养闲人,谁能解决问题,谁就是骨干LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证Nature:超越ChatGPT,思维更像人类的人工智能诞生,具备了人类举一反三的能力燃情岁月1989(23)GPT turbo 看了没?!这真是大批失业人员在路上。chat gpt 怎么上不去了? 彻底罢工了幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用比尔盖茨:GPT-5不会比GPT-4好多少,生成式AI已达到极限谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”苹果准备推出新款iPad和MacBook Air,以扭转销售下滑北理工校长龙腾院士:如何打造善于解决复杂工程问题的工程师队伍现场直击OpenAI开发者大会:GPT-4 Turbo、用户自定义GPT、GPT商店,一切都是硅谷新王的架势GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错代码数据会促进LLM的推理能力吗?一想到这个我就觉得挺奇葩的,但确实如此。日本30年来未能解决的难题,怎么就突然迎刃而解了?微软深夜放大招:GPT-4 、DALL·E 3、GPTs免费用,自研大模型专用AI芯片大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0​基于MCTS和Residual-EBM的数学推理能力提升实践Google发布Gemini,暗示GPT-4不是「原生」多模态GPT-4不会图形推理?“放水”后准确率依然只有33%深圳内推 | 元象XVERSE招聘NLP/推理优化/大模型算法工程师对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。