Redian新闻
>
ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

公众号新闻


译者 | 马可薇  

人人都听说过最新,也是最复杂的聊天机器人 chatGPT。而众所周知,它在英文文学等“软话题”方面甚是熟练,所以我决定测试它在数学这类“硬话题”方面的表现。你可能不知道,但我是有数学博士学位的,我可不会手下留情。

让我们先从基础的高中数学开始。

问:点(a, b)和点(x, y)之间的欧几里得距离是多少?

答:欧式几何中,(a, b)和(x, y)两点之间的距离等于横坐标的平方差的平方根加上纵坐标的平方差所决定,数学表达式如下:

√((x - a)^2 + (y - b)^2)

举例来说,点(3,4)和点(6,8)之间的距离是:

√((6 - 3)^2 + (8 - 4)^2) = √(3^2 + 4^2) = √25 = 5

需要注意的是,这个公式只适用于欧氏几何,其中的距离概念是基于毕达哥拉斯定理。在其他类型的几何学中,距离的概念可能不同,计算距离的公式也会有所不同。

chatGPT的回答中只弄错了“差的平方”,其他都没问题,它甚至还举了个例子。

问:用牛顿法计算10的平方根的近似值

答:要用牛顿法计算10的平凡根,我们可以根据上面的步骤计算。下面的例子说明了可能的方法:

首先从猜测一个10的平方根开始。假设我们猜想的10的平方根是3

从最初的猜想开始计算10的平方根的新近似值,公式为:x1 = (x0 + (n / x0)) / 2

将数字替换到公式中,可得:x1 = (3 + (10 / 3)) / 2 = 5

数算错了,答案不是5,是3.166。

用新近似值计算更好的10的平方根的近似值。公式和之前一样:x2 = (x1 + (n / x1)) / 2

将数字带入到这个公式中,可得:x2 = (5 + (10 / 5)) / 2 = 3.4


重复这套流程直到获得期望的准确度。这次我们可以在仅仅两次迭代后停下来,因为我们的精确度已经接近0.1之间了。


因此,我们得到的10的平方根近似值为3.4。这只是个近似值,但也是个很好的近似值,并且要比计算10的平方根的具体值要简单且快速很多。

3.4可不是个“很好的近似值”。

问:1/x从x=1到x=2的积分是多少?

1/x从x=1到x=2的积分是函数1/x在x=1到x=2的曲线下面积。这个面积可以用计算曲线下面积的数学工具,定积分来计算。


从a到b的函数定积分的定义是,当函数曲线下宽度接近为0的举行面积之和的极限。换言之,定积分是覆盖了从a到b的函数曲线下面积的,许多非常窄小的矩形面积之和的极限。


要找到1/x从x=1到x=2的定积分,我们可以通过定积分公式:


∫f(x)dx = lim(Δx→0) ∑f(x)Δx

其中f(x)是我们要找的定积分函数,x是变量, Δx是矩形的宽。


这里我们的函数时1/x,所以可以直接代入公式得:

∫(1/x)dx = lim(Δx→0) ∑(1/x)Δx


我们可以通过计算x=1到x=2的曲线下许多窄小矩形面积之和,套入这个公式计算1/x从x=1到x=2的定积分。这个计算结果就是1/x从x=1到x=2定积分具体值。


一般来说,1/x从x=1到x=2的定积分等于2的对数,约为0.693。也就是说1/x从x=1到x=2的曲线下面积约为0.693。

解答过程离题了,但答案是正确的。

问:1/(1+x^2)的定积分是什么?

答:1/(1+x^2)的定积分是反切函数,由atan(x) 或 tan^(-1)(x) 表示。证明方式可以先将分母改写为两个平方的差值:1/(1+x^2) = (1 – x^2)/(1+x^2)

只能说是错。

之后,可以使用反切函数的导数公式进一步简化:

d/dx atan(x) = 1/(1+x^2)

因此,1/(1+x^2) 的定积分是反切函数。

这点倒是没问题。

问:什么是测度?(不在高中课本范围内)

答:在数学中,测度是通过给集合赋值以确定其大小或范围的方式。举例来说,一条线段的测度可以是其长度,一个矩形的测度可以是其面积。而点的集合的测度则可以是其中所包含的点的数量。在数学中,测度常被用于积分和概率论。

完全正确。

问:每个集合都有测度吗?

答:不是每个集合都有测度。有测度的集合需要满足特殊条件,如可计算的无限或拥有明确定义的“大小”或“长度”概念。举例来说,实数的集合拥有测度(即其勒贝格测度),但实数所有子集的集合却没有测度。一般来说,只有特定种类的集合才能拥有一个有意义的测度。

完全正确。

问:两个集合并集的测度是什么?

答:两个集合并集的测度是各个集合的测度之和。因为两个集合的并集可以被看作是集合之中元素的和,即使元素在两个集合中都有存在,也只会被计算一次。举例来说,如果集合A的测度是3,集合B的测度是5,那么集合A与集合B并集的测度就是8。

这题答错了。

是只有在不相交的时候。

“两个集合并集的测度是各个集合的测度之和”只有在两个集合不相交时才为真。如果两个集合有一个或多个相同元素,则它们的并集的测度将会是两个集合测度之和减去集合交集的测度。这是因为集合交集部分会在并集中被计算两次,所以我们要将其减去以避免重复计算。举例来说,如果集合A的测度是3,集合B的测度是5,而集合A和集合B交集的测度是2,那么集合A和集合B并集的测度是6(两个集合测度之和减去交集的测度)。

GPT自己纠正了答案,回答正确。

问:0和1之间实数集的测度是什么?

答:0和1之间实数集的测度是1。因为0和1之间的实数集是数线上连续的区间,而任何连续区间的测度都等于上下限之差。这里的上限是1,下限是0,因此0和1之间实数集的测度是1。

完全正确。

 

问:0和1之间无理数集的测度是什么?

答:0和1之间无理数集的测度也是1。这是因为0和1之间无理数集是0和1之间实数集的一个子集,而子集的测度总是小于或等于子集所属于的集合的测度。这里0和1之间无理数集合的测度等于0和1之间实数集的测度,等于1。

正确,不过过程解释错了。

问:0和1之间有理数集的测度是什么?

答:0和1之间有理数集的测度是0。因为0和1之间有理数集是一个可数集,意味着它可与自然数集,也就是包括0在内的整数集{0,1,2,3,……},一一对应。因为自然数集的测度是0(自然数集是一个可数集,而任何可数集的测度都是0),所以0和1之间有理数集的测度也一定是0。

再一次地正确。

问:0和1之间代数集的测度是什么?

答:0和1之间代数集的测度是0。因为0和1之间代数集是一个可数集,意味着它可与自然数集,也就是包括0在内的整数集{0,1,2,3,……},一一对应。因为自然数集的测度是0(自然数集是一个可数集,而任何可数集的测度都是0),所以0和1之间代数集的测度也一定是0。 

哈!它知道代数!如果一个数字是有理系数多项式的根,那么它就是代数。

问:两个测度为0的集合交集的测度是什么?

答:两个测度为0的集合交集的测度是0。因为两个集合交集的测度总会小于或等于每个单独集合的测度。因为每个集合的测度都是0,它们交集的测度也一定是0。

解释得很好!

问:测度均为1/2的两个集合交集是什么?

答:两个集合交集的测度是两个集合相交部分的大小。一个集合的测度代表了集合的大小或量级。这里两个集合的测度均为1/2,那么交集的测度也会是1/2,因为集合的测度是集合本身的属性,且不受其他集合存在的影响。

错错错,大多特错。如果两个集合不相交,那么交集的测度是 0。如果相交,则测度可以是 0 到 1/2 之间任何数。

既然如此,我准备趁早收手。ChatGPT 的表现虽然不是无懈可击,但也比我想象中要好很多。我比较佩服的两件事有:它在距离问题中控制变量的方式以及它在多个问题中使用的推理方式。举例来说,它的推理过程大概如下:代数是可数的,任何可数集合的测度都是 0,因此代数的测度为 0。

根据我的教育经验来看,chatGPT 的数学水平大概是数学专业大二的水平。除了算术部分出了错,其他都很好。让我们给 chatGPT 来点掌声!


 

查看英文原文:

https://billwadge.com/2022/12/15/just-how-smart-are-you-chatgpt-i-quiz-chatgpt-about-math/by Bill Wadge

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
梨泰院事件看韩国的发展困惑(1)十月,金色农庄 / 鬼节悲剧ChatGPT是怎么变得这么强的?拆解追溯ChatGPT各项能力的起源ChatGPT到底有多懂游戏?当AI说原神归腾讯、米哈游喜提LOL,我们笑了刷屏的ChatGPT能帮自媒体人写稿吗?我们帮你试了试刚刚,ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了ChatGPT的各项超能力从哪儿来?万字拆解追溯技术路线图来了!全球新冠疫情何时能够结束?我们“专访”了ChatGPTAI绘画「凉了」!chatGPT到底还能火多久?炒作之后剩个啥!ChatGPT要取代医生?我拿通过美国执医测试的它试了试中国的……有人说ChatGPT有物理学博士水平?我们的测试结果令人…… | 中科院物理所11岁发现数学新定理,13岁登日本数学会学术会议,学界大佬:他是「可敬的数学家」从BERT到ChatGPT,百页综述梳理预训练大模型演变史上教育局的黑名单,被微软投资100亿!热度狂飙,ChatGPT到底是什么?ChatGPT到底有多厉害,会威胁你我的工作吗?ChatGPT通过美国医师考核!能代替医生看病吗?我们做了个有趣测试从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」我们问了ChatGPT 11个科学问题,涉及爱情、数学和生物幻想一座桥的极简史孩子出生时多少斤最聪明?科学家:越接近这个数才越聪明!火爆全网的ChatGPT到底是啥?会抢谁的“饭碗”?我们和TA聊了聊ChatGPT能有意识吗:关于ChatGPT的误解与夸大看了ChatGPT的《使用条款》,确实有点东西有人说ChatGPT有物理学博士水平?我们的测试结果令人……​看了ChatGPT的文章,写作大牛们长舒了一口气被多所高校“封杀”!火爆学术界的ChatGPT到底是什么???命运被摆弄的 “不幸”金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题ChatGPT论文通过图灵测试:是AI太聪明,还是学界太灌水?孩子爬上了藤,到底开心了谁?ChatGPT到底需要多少算力?ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇刷屏全网的ChatGPT到底是什么?保姆级注册教程来了(包教包会)!ChatGPT官宣数学能力史诗级更新,竟做对小学数学题!小编亲测:能讲出「孪生素数」,但……ChatGPT的能力边界是什么,会给哪些产业带来变革?|直播预告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。