Redian新闻
>
ChatGPT 的数学推理太惊艳了
avatar

ChatGPT 的数学推理太惊艳了

mjia123
楼主 (北美华人网)
工作中遇到一个数学问题,自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话,那实在是太厉害了。Algebra 好的人看看:
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839
avatar
planettime
2 楼
版上大妈怎么会烧脑看这个
avatar
mjia123
3 楼
叫家里学algebra 的娃娃试试也行啊
avatar
AlIen_196883
4 楼
这叫推理吗?还以为怎么回事呢,看到Next, we expand the product觉得果然,顶多也就这样了吧。 我来讲讲什么叫一般规律,什么叫数学。
得到 f_1(x)=x,f_2(x)=x(x+1)/2,f_3(x)=x(x+1)(x+2)/6……之后,很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢? 显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!,那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)? 为了让问题直观,可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示,就是 从 二项分布三角形的第 k 行 第 k 个数开始,加上下一行的第k个数,再加上下一行的……直到第 x+k-1 行为止,是否等于第 x+k 行的第 k+1 个数。 以图片为例,

就是要证明 从最右边的那一列 1 随便选一个,往左下累加,那不管到哪里停住,其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单,
(给想独立思考的人留出的空白分割线) ——————————————————————————






把第一个1等价到右下的1,看作这样

那么根据二项分布的特性,1+3变成下面的4,+6变成下面的10,以此类推,显然最后会落在末尾数字的右下角。得证。 这才是数学的思路。
avatar
Blueocean23
5 楼
mjia123 发表于 2024-10-17 00:09
工作中遇到一个数学问题,自己在纸上算了半天才搞定。然后想试试ChatGPT. 没想到人家很快解出来了。最让我惊艳的是它似乎通过几个例子归纳总结出了一般性的结论。如果它没有刷这个题的话,那实在是太厉害了。Algebra 好的人看看:
https://chatgpt.com/share/6710869b-1d90-8013-b991-879821a42839

我家娃也喜欢,自己做一次后看看ChatGpt怎么做,开阔思路。
avatar
xiaomaomiaomiao
6 楼
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。
avatar
apple-bee
7 楼
我最近觉得o1-mini做点technical的问题还不错,比4o进步了很多
现在chatgat-4o挺不好用的,平时用它polish email/draft什么越来越敷衍了,output根本就没有怎么修改。现在写作有关的给claude做了
avatar
Behappy2023
8 楼
版上大妈怎么会烧脑看这个
planettime 发表于 2024-10-17 00:17

太mean了,赤裸裸的性别加年龄歧视👎
avatar
jesciv
9 楼
只有最近刚刚出的O1-preview版本还凑合,之前的版本都不行,错误太多。
avatar
greentea
10 楼
AlIen_196883 发表于 2024-10-17 01:59
这叫推理吗?还以为怎么回事呢,看到Next, we expand the product觉得果然,顶多也就这样了吧。 我来讲讲什么叫一般规律,什么叫数学。
得到 f_1(x)=x,f_2(x)=x(x+1)/2,f_3(x)=x(x+1)(x+2)/6……之后,很容易猜想 f_n(x)=x(x+1)(x+2)...(x+n-1)/n! 怎么证明呢? 显然用数学归纳法。假设f_k(x)=x(x+1)(x+2)...(x+k-1)/k!,那么是否有 \sum _{i=1}^x f_k(i) = f_{k+1}(x)? 为了让问题直观,可以把f_k(x)改写为 f_k(x)= (x+k-1)! / ( (x-1)!k! ) = \binom{x+k-1}{k} 所以就是要证明 \sum_{i=1}^x \binom{i+k-1}{k} = \binom{x+k}{k+1}
直观一点显示,就是 从 二项分布三角形的第 k 行 第 k 个数开始,加上下一行的第k个数,再加上下一行的……直到第 x+k-1 行为止,是否等于第 x+k 行的第 k+1 个数。 以图片为例,

就是要证明 从最右边的那一列 1 随便选一个,往左下累加,那不管到哪里停住,其和一定等于停住的地方的右下角的数。(比如此图上 1+3+6+10+15 = 35) 证明其实很简单,
(给想独立思考的人留出的空白分割线) ——————————————————————————






把第一个1等价到右下的1,看作这样

那么根据二项分布的特性,1+3变成下面的4,+6变成下面的10,以此类推,显然最后会落在末尾数字的右下角。得证。 这才是数学的思路。

Hockey stick identity!
avatar
luna17
11 楼
虽然但是,有一次给他一个Mathcounts的counting题,做错了,也不能全信
avatar
Carabella
12 楼
经常一本正经的胡说八道。比如一开始它错了,然后你给它一个答案,它能给你编出一套思考过程,然后你说刚才答案错了,正确答案应该是B,它又能给你编出一套思考过程。
avatar
Geofan
13 楼
O1 preview惊艳,完爆竞争对手。不过这个行业盈利太太困难了,昨天国内好几个公司都准备停止自己训模型了。现在这个行业是纯粹烧钱大赛,创业公司基本全要死
avatar
shanggj
14 楼
apple-bee 发表于 2024-10-17 02:40
我最近觉得o1-mini做点technical的问题还不错,比4o进步了很多
现在chatgat-4o挺不好用的,平时用它polish email/draft什么越来越敷衍了,output根本就没有怎么修改。现在写作有关的给claude做了

o1 明显好出了一个层次。尤其做数学题。
上次女儿上课一道题做不出来 让我做。 sin(x)^3 * cos(3x) + cos(x)^3 *sin(x) = 3/8 求 x. 我懒得自己 计划喝茶 的算了, 就直接输如 o1。
它先算了一遍, 我看答案显然不对呀 , 细看一下, 它把 sin(x)^3 搞成了 sin(x^3), 我告诉它错了。 然后它说, 哦, 对不起。 这样的话, 化简不了, 但我可以给你数值解, 然后给了一堆小数点。 我说, 不行, 这是作业题,不但要解析解, 还得给足步骤。 它说好吧 我试试, 然后 就解出来了。步骤真详细 我直接 copy 然后发给我女儿。
前后就一两分钟, 比我自己算舒服多了。
avatar
shanggj
15 楼
luna17 发表于 2024-10-17 08:45
虽然但是,有一次给他一个Mathcounts的counting题,做错了,也不能全信

o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差
avatar
夏雨
16 楼
数学题不知道,我有次问一个工程问题,咋一看老厉害了,专业,一步步的。 仔细一看,一派胡言, 啥玩意啊 一本正经的胡说八道
avatar
cheezit1999
17 楼
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。

avatar
woyaoshou
18 楼
别尬吹。CHATGPT很蠢的。试了几道简单的初中数学竞赛题,给的答案完全不沾边。
之前吹什么能做IMO,我是完全不信。你把答案输入进去训练了很多次,再做出来,有个屁意义?
avatar
yayapig
19 楼
shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差

因为他们拿AMC的题练过了。 我学生最近拿一个竞赛题库系统测试了, 按内容难度,和认知难度测试的,最新的model 能做level 5很复杂的题,但同时会在level 1的题上犯错误。 整个测试显示的是他们没有在认知,推理上有大的进步,只是手熟。 可以类比与刷题进大厂,当然能刷出来肯定比一般人强了。
avatar
yayapig
20 楼
cheezit1999 发表于 2024-10-17 09:49
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。


有规范操作流程的问题,AI迟早都能搞定。但现有模型对认知能力训练不够,似乎还是在刷题的道路上狂奔。 就象老师除了讲题,也要讲怎么思考,怎么假设,判断,还有些认知能力,比如几何是要靠生活经验的,这些肯定也是可以训练的,可目前搞AI的比较急功近利,只是刷题。我们有些测试,几个版本的模型都没有大的改进。 将来,最重要的工作可能是各个行业的A I 监控员,要能一眼看出AI是不是又做傻事了。:-)
avatar
woyaoshou
21 楼
yayapig 发表于 2024-10-17 10:24
有规范操作流程的问题,AI迟早都能搞定。但现有模型对认知能力训练不够,似乎还是在刷题的道路上狂奔。 就象老师除了讲题,也要讲怎么思考,怎么假设,判断,还有些认知能力,比如几何是要靠生活经验的,这些肯定也是可以训练的,可目前搞AI的比较急功近利,只是刷题。我们有些测试,几个版本的模型都没有大的改进。 将来,最重要的工作可能是各个行业的A I 监控员,要能一眼看出AI是不是又做傻事了。:-)

不觉得LLM能解决这类问题,但是它确实也有不少地方可以施展空间。
avatar
yeon
22 楼
Chatgpt 的问题是不懂非要装懂。最近在学一个比较小众的软件。我问他问为什么会有出现这个error,。人家给我各种建议,结果没一个能用。其他用的人多的软件,Chatgpt 还挺有用的。我不要求他什么都会,但有没有人能教教他,不要乱给建议,浪费大家的时间呀。
avatar
细节图老
23 楼
感觉AI以后可以取代大部分白领工作,担心失业会大量增长。
avatar
crazyeater
24 楼
他就是個記憶力很好的文科生,會做所有有答案的題,靠背書的。 我覺得讓他給我解答leetcode還挺好的
avatar
榴莲烤奶好好运
25 楼
cheezit1999 发表于 2024-10-17 09:49
回复 16楼 夏雨 的帖子
对,就是一本正经的胡说八道。如果专业问题让这些AI 来做,真的很可怕。
前两天我们同事还聊着说,那些嚷嚷着AI能代替真正的scientists 和 engineers的人,得多蠢,他们大概也看不懂AI胡扯了啥。


以后可以啊,现在才多长时间。
avatar
sugeeamimi15
26 楼
用了它这段日子,随便给个标准化的答案还行,但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考,就是给自己吃药。而且我看过它给我做的图表数据分析,它会看错数据的,这个一定要自己复查一遍
avatar
shanggj
27 楼
sugeeamimi15 发表于 2024-10-17 12:26
用了它这段日子,随便给个标准化的答案还行,但无法给出很厉害很专家级的答案。要是一味依赖不加自己的加工和思考,就是给自己吃药。而且我看过它给我做的图表数据分析,它会看错数据的,这个一定要自己复查一遍

在可以遇见的未来, 很多行业的平庸从业者们 都必然面临和 AI 抢饭碗的 境遇了。
avatar
yiwenyihe
28 楼
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

真的! amc8的题目他做下来是错的
avatar
jianliu67
29 楼
榴莲烤奶好好运 发表于 2024-10-17 12:09
以后可以啊,现在才多长时间。

以后也没戏!路如果开始走错了,走多长时间都没用。
avatar
fluffyball
30 楼
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

是的 挺差的 我看了答案问过are you sure? 然后它又做了一遍,然后还是错的 我是不会相信它做的答案的
avatar
啥玩意
31 楼
shanggj 发表于 2024-10-17 09:36
o1 现在相当厉害。 我前一段 试了几个 AMC 10、12 最后的难题, 都一次做对。 后来又网上找了几个 普特曼的竞赛题, 也都对了。
上个周末, 女儿去个学校的 chess club, 看见里面一堆人在试 o1, 大家输入自己的数学作业题 (大一), 全对。 club 里有一 数学系的研究生, 大家就让他搞几道难题来试试, 研究生想了几道 都做出来了。 大家惊叹之余, 忽然都不说话了 然后就闷头开始配对 下棋了。
o1 现在如果你懂你问的问题, 能够和它有互动的话, 帮助是相当之大。 如果自己完全一堆浆糊, 指望输入问题就有答案, 那是活该被忽悠。 它 忽悠起人来, 也一点不比人 差

已知题目可能早被试过知道答案了。你得自己出题
avatar
wengyuan
32 楼
xiaomaomiaomiao 发表于 2024-10-17 02:03
我的体验是它的数学很不好,基本加减乘除都算错。发现后挺惊讶的。

据说新版的chatgpt 的数理能力提高了很多。
avatar
Lalala2022
33 楼
有时对有时错
相关阅读
很多人居然不知道 纳粹党是左翼政党, KKK党是民主党草根组织高度怀疑凶险的黑色素瘤如果家里小学生有"pretty minor ADHD",你们会跟学校提吗?AI 的发展让 Nuclear 能源又回来了,是喜是忧?8/17/2024-8/23/2024 夏已末,秋初到,季节轮回,总有新的故事值得期盼,而我们依然坚守与你的约定,一周一“惠”为什么有人那么推崇elon musk?想不通女人是不是只要有钱 身体健康 日子不会太差?50岁还能保持这种状态 太牛了迪士尼新推的土豪版入园通行证,可以不排队随时玩超详细:ChatGPT金融全流程平心而论:不谈人品,范冰冰是不是华人颜值的巅峰top1?Kamala Harris的fox news专访总结华人注意!法拉盛图书馆8/20帮申请优惠地铁卡 每周17元无限次乘坐没天赋的娃真的挺省钱的狼真的来了~ ChatGPT o1 编程竞赛成功率达到89% 打败93%的程序员易建联这事有网友质疑网传身份证图片真伪(东莞市政协回应)最航运 | 北美进口商业绩报告汇总 | Home Depot、Hasbro、Skechers、Columbia、Deckers国内给的大学生工资真低迷茫!加拿大移民局“严卡”学签,华人留学生深受其害!机票作废,入学推迟...马斯克不再重用朱晓彤?派心腹接替了朱的工作,朱回国了Reddit: ChatGPT o1 wrote 3000 line of code, 0 Errors十一月美联储对利率调整,你的判断是什么 ( 投票 )ECCV 2024 | 满分Oral论文!整数训练脉冲推理的高性能低能耗目标检测网络参加点头之交的邻居家的孩子的婚礼,该包多少钱得红包?看着Kamala 忽然怀念Hillary澳洲华人区枪声大发,当街枪击!男子直接开枪射击警车,华人网上班发帖第108张DB Offer!UCB本科学员斩获Deutsche Bank NYC 2025年暑期实习Offer特鲁多亲自指证印度政府参与在加拿大的暗杀行为!画家意外失明,他却重新拿起画笔,在黑暗中创作,再次惊艳众人2024年了,iPhone 终于能刷门禁和电梯了。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。