Redian新闻
>
LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」

LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」

科技



  新智元报道  

编辑:润
【新智元导读】LeCun和学界的其他研究人员再次炮轰LLM的推理能力,然后激起了众多网友讨论。作为xAI联创Christian Szegedy博士不经意透露出可能是xAI未来的技术方向。

最近,包括LeCun在内的一众大佬又开始针对LLM开炮了。最新的突破口是,LLM完全没有推理能力!

在LeCun看来,推理能力的缺陷几乎是LLM的「死穴」,无论未来采用多强大的算力,多广阔和优质的数据集训练LLM,都无法解决这个问题。

而LeCun抛出的观点,引发了众多网友和AI大佬针对这个问题的讨论,其中包括xAI的联合创始人之一Christian Szegedy。

AI科学家Christian Szegedy回复LeCun:

卷积网络的推理能力更加有限,但这并没有影响 AlphaZero的能力。

从两位大佬的进一步讨论中,我们甚至能窥探到xAI未来的技术方向——如何利用大模型的能力突破AI的推理能力上限。

而网友们在这个问题之下,对于LLM推理能力的宽容,也展现出了AI与人类智能关系的另一种思考:

人类也不是所有人都擅长推理,难道因为有人不擅长推理,就要否认人类智能的客观性吗?

也许人类和LLM一样,也只是一种不同形式的「随机鹦鹉」罢了!

大佬对话透露出xAI的技术方向

论文在arXiv上公布后,特别经过LeCun的转发,引起了网友和学者的广泛讨论。
马老板牵头成立的xAI的联合创始人,AI科学家Christian Szegedy回复到:

卷积网络的推理能力更加有限,但这并没有影响 AlphaZero的能力。


关键在于推理过程和建立的 (RL) 反馈循环。他认为模型能力可以进行极其深入的推理。(例如进行数学研究)

LeCun也直接回复到:

AlphaZero「确实」可以执行规划。但是通过MCTS完成的,使用卷积网络提出好的行为,另一个卷积网络来评估位置。


然而探索这棵树所花费的时间可能是无限的。这就是推理和计划。而强化学习是用来训练这些网络的。

Christian Szegedy继续回复到:

我同意。所以我认为的方法是:


- 迫使系统探索与我们相关的推理空间的大部分内容。

- 使其以可验证的方式进行探索。

- 了解人类对有趣事物的品味。


在我看来,所有这些都很快变得可行。

而从xAI联创嘴里说出来的观点,加上最后这句:「在我看来,所有这些都很快变得可行」,不由得让人浮想连篇。

毕竟如此肯定地说「可行」,最直接的原因也许就是「我们已经做出来了。」

也许在不久的将来,我们将能看到xAI抓住LLM推理能力弱的「痛点」,穷追猛打,打造出一个「强推理」的大模型,弥补了像ChatGPT等市面上一干大模型产品的最大缺陷。

LeCun:说多少次了,LLM就是不行!

而LeCun最近批驳LLM推理能力的依据,是ASU大学的教授Subbarao Kambhampati最近的几篇论文

个人介绍:https://rakaposhi.eas.asu.edu/

在他看来,在很多能力上号称达到和超越人类水平的LLM,在推理和规划能力上有重大缺陷。

论文地址:https://arxiv.org/abs/2310.12397

论文地址:https://arxiv.org/abs/2310.08118

论文地址:https://arxiv.org/abs/2305.15771

在人类专家级的规划推理难题面前,GPT-4的正确率只有12%。

而且,在推理任务中,如果让LLM对自己的答案进行自我修正,输出质量会不增反降。

也就是说,LLM根本没有能力推理出正确答案,一切只能靠猜。

而教授在论文发表之后,还针对网友和学者对于论文的讨论,发了一条长推,进一步阐述了自己的观点。
教授认为LLM是出色的「创意发生器」,但是无论是在语言还是代码方面,但它们不能自主规划或推理
教授指出,对于LLM的自我纠正能力,学界存在很多误解。
一些论文的作者过度人格化LLM,误以为它们能像人类一样产生错误并自我修正。
他批评了使用随意整理的Q&A数据集来制定和评估自评声明的做法,认为这种做法在社区中造成了混淆。
教授还指出外部验证和人类参与的重要性。尽管GPT-4不能验证颜色配置,但可以帮助生成Python代码,需要人类修正后可以作为外部验证器。
同时,与人类和专业推理器合作的模型,也将有助于模型推理能力的提升。
教授列出了一些论文,展示了如何从LLM中提取规划域模型,通过人类和专用推理器的帮助进行优化,并用于计划验证器或独立域计划器。
进一步优化LLM的验证能力也很重要。通过特定的微调来增强LLM的验证能力,尽管这不会让LLM突然在推理或验证方面表现得更好,但可以使自我纠正能力得以小幅改进。

说LLM是「随机鹦鹉」,难道人类就不是了吗?

而一位网友同样也在LeCun的推特下指出,其实规划和推理对于很多人类来说也不是强项,言下之意,不应该因此否认大语言模型的智能水平。

曾创立了两个工作社交平台Glint和Whip的连续创业者Goutham Kurra最近也发表了一篇长博客:「我们都是随机鹦鹉」,认为LLM背后的能力和人类智能没有本质的区别。

文章链接:https://hyperstellar.substack.com/p/let-me-finish-your-sentences#%C2%A7were-all-stochastic-parrots

如果人类坐下来冥想,并不会意识到自己产生想法的机制到底是如何运作,而且,人类对塑造自己的思想的本质也并不存在有意识的控制。

假设一个人在大热天外出散步,并且出汗了。这会导致他想到气候变化,会带来一些思想中的困扰。

他决定将他的想法转移到更愉快的主题上,这个过程感觉像是有意识的控制,但该选择哪个主题去思考呢?

人类的大脑也许会尽职尽责地弹出几个选项供他参考:也许会考虑晚上晚些时候要玩的游戏,或本周末要参加的音乐会。

但这些新的选择从何而来?你的大脑是如何决定弹出这些而不是其他东西的?人类是否有意识地了解所有可能选择的枚举过程?

当他继续散步并思考这些事情时,他用眼角的余光注意到一只松鼠跑上树,就会对它浓密的尾巴感到惊讶。

这时候,人类的「智能思维」又消失了,开始像一只随机鹦鹉一样自动思考?

当我们认识到我们对自己的想法实际上是如何形成的知之甚少时,问题是:想法的无意识起源有多随机?

难道不也是某种程度的「随机鹦鹉我们的叙事生成机制有多像LLM?

以意大利作家Elena Ferrante为例,据《经济学人》报道,她「可能是你从未听说过的最好的当代小说家」。

她的《我的天才女友》系列已在40个国家售出超过1100万册,评论家们纷纷表示:「女性友谊从未被如此生动地呈现出来过。」

她的回忆录「In the Margins」中描述了自己二战后在意大利的成长经历。

与同时代的其他女作家一样,她出生在男性文学传统中,阅读的大部分是男性作家的作品,因此开始模仿男性作家进行写作。

她在自传中写到:

即使在我十三岁左右的年纪……感觉自己的写作水平还不错,我也一直感觉有个男性的声音在告诉我应该写什么,以及如何写。


我甚至不知道那个声音是和我同龄还比我年纪大,也许已经是个老人了。......我想象自己成为男性,但同时仍然是女性。

在自传中,人类中一位伟大的当代作家,以现代意大利文学的独特而充满活力的声音,坦率地描述了她摆脱「随机鹦鹉」状态的努力和挣扎。

因为她的独有的语言和思想被数百年来形成的男性为主的文学经典所不知不觉地塑造着。

如果我们真正审视自己,我们头脑中出现的大部分想法都是别人的声音:我们的父母和老师的声音。

我们读的书,我们看的电视,我们的思想建立在非常深厚和粘性的文化基础之上。

我们的语言、思想和表达能力是我们所阅读的内容的函数,过去的文字会影响未来。

我们过着与祖先基本相同的生活,重复着昨天的绝大多数相同想法,写下与其他人相同的文字,差别非常小。

随便看看好莱坞的电影,读几本书,就会发现很多故事几乎是相同的,只是背景不同而已。

时不时地,人类似乎能够摆脱鹦鹉学舌的束缚,说出一点原创的想法,思考一点原创的想法。

通过这一点点原创的内容,我们的文化就取得了巨大的飞跃。

参考资料:
https://twitter.com/ylecun/status/1716432413364977757
https://hyperstellar.substack.com/p/let-me-finish-your-sentences?utm_source=profile&utm_medium=reader2https://twitter.com/ylecun/status/1716432413364977757




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纽约I-84重大交通事故!满载高中生巴士侧翻 2死40余伤比ChatGPT早发两周!被喷下线的Galactica成了LeCun最大的意难平...GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错GPT-4被曝重大缺陷!35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼!LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日OpenAI史诗级更新:人人都可定制GPT,GPT商店上线,模型价格打骨折GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍GPT-4也难逃“反转诅咒”!新研究发现:大模型存在推理缺陷,知道“A是B”推不出“B是A”斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解美加警戒!18死13伤!美国陆军教官「随机大屠杀」枪手在逃!极度危险!美国巨额赤字无解?诺奖得主:国会分裂把“唯二”的路都堵死了研究称AI绘画碳排放仅为人类画家1/2900,LeCun转发Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了《护士日记》 在美国医院受“贿赂”破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推深夜重磅!GPT-4 Turbo 发布,更强更全能还更便宜,GPT 商店要开了超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观chat gpt 怎么上不去了? 彻底罢工了GPT turbo 看了没?!这真是大批失业人员在路上。周末小厨- 试做花生凉粉好消息!万锦新旺角华人超市要开业啦!4重大礼大放送!时间的湾 1图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?管理缺乏透明度,圣荷西前市长被裁定违法chatGPT之父预言2030年前出现AGI,GPT-10智慧将超越全人类总和!GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0,惹Karpathy马库斯惊呼GPT被曝重大缺陷:大模型不会“反向推理”?比ChatGPT早发两周,被喷下线的Galactica成了LeCun最大的意难平风雨之夜红色日记 10.21-31BELLE-7B-1M逻辑推理超预期?10B量级开源中文对话LLM,谁最「懂」逻辑推理?Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试男女平等---还要等多久?LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。