GPT-4推理太离谱!大学数理化总分没过半,21类推理题全翻车,马库斯:AGI太遥远
新智元报道
新智元报道
【新智元导读】「地表最强」GPT-4在推理问题中接连出错!MIT校友,以及UCLA华人一作的最新研究引众多网友围观。
关于数学、化学和物理推理的系统调查,结果显示,目前的LLM无法提供令人满意的性能......没有一种提示策略明显优于其他策略。
21个问题集,GPT-4全翻车
1. [forall x . P(x) ==> Q(x)]
2. [exists x . P(x)]
有五个积木从上往下堆叠: 1. 从上往下数第二个积木是绿色的 2. 从上往下数第四个积木不是绿色的 在这些条件成立的情况下,证伪或证明以下结论:在一个非绿色积木的正上方,有一个绿色 积木。
Tom和Nancy上班需要乘坐交通工具。Nancy的通勤时间大约为30~40分钟,而Tom的通勤时间大约为40~50分钟。上个周五,Nancy在早上8:10~8:20之间离家,而Tom在早上8:5~9:10之间到达工作地点。此外,Nancy在Tom离开家后到达工作地点,但不会超过20分钟。你能否推断出上个星期五,Tom和Nancy何时到达工作地点?
1. 住在Dreadbury Mansion的某人杀了Agatha姨妈。 2. Dreadbury Mansion中唯一的居住者是Agatha姨妈、管家和Charles。 3. 杀人犯总是讨厌他的受害者,并且他的财富不会比受害者多。 4. Charles不讨厌Agatha姨妈讨厌的人。 5. Agatha姨妈讨厌所有人,除了管家。 6. 管家讨厌所有不比Agatha姨妈富有的人。 7. 管家讨厌Agatha姨妈讨厌的所有人。 8. 没有人讨厌所有人。 9. Agatha姨妈不是管家。
正确的答案是Agatha姨妈杀了自己。
桌上放着7张牌,每张牌一面写着数字,另一面是单色色块。这些牌的正面显示的是50、16、红色、黄色、23、绿色、30。 要判断「如果一张牌正面显示4的倍数,则背面颜色为黄色」这个命题的真假,你需要翻转哪些牌?
结论:推理能力至关重要,但GPT-4不会
作者介绍
大学数理化,GPT-4得分35.8%
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章