Redian新闻
>
ChatGPT官宣数学能力史诗级更新,竟做对小学数学题!小编亲测:能讲出「孪生素数」,但……

ChatGPT官宣数学能力史诗级更新,竟做对小学数学题!小编亲测:能讲出「孪生素数」,但……

科技



  新智元报道  

编辑:好困 Aeneas
【新智元导读】昨天,OpenAI官宣称ChatGPT的准确性和数学能力,小编亲测显示: 进步了,但不多。

ChatGPT迎来重大更新!

昨日,OpenAI官宣,ChatGPT经过重大更新,已经提升了准确性和真实性,以及数学能力。

哦?就是那个满嘴跑火车,解数学题时一本正经地胡说八道的ChatGPT?

虽然不知道具体做了哪些升级,不过从简单的测试来看,确实有一些进步。

摆脱数学傻子人设?

对于之前的ChatGPT,-1*-1*-1是一个老大难问题,对于这个问题,它给出的答案是1。(离谱)

而现在,更新后的ChatGPT果然有了进步,可以答对这个问题了!(鼓掌)

在以前,ChatGPT的基础数学奇差无比,是公认的。

它连一个简单的除法都算不对,还大放厥词。网友忍无可忍,骂它太蠢。

而ChatGPT被劈头盖脸痛骂一顿后,终于开动脑筋,算出了正确答案。

虽然但是,更新后的ChatGPT,依然还是不太聪明的样子……

同一个问题连续问了3遍,ChatGPT都斩钉截铁地给出了几乎相同的答案。

然而,你确定「孪生素数」是相差3,而不是2吗?

然而,本来打算继续追问的小编却惨遭闭门羹。

由于测试的次数太多,免费的ChatGPT表示暂不「接客」,下个小时再来。

顺便,在这里科普一下,两者相差为3的素数对只有 (2, 5)。

有意思的是,数学奇差的ChatGPT,写起代码来倒是有一手。

这位叫Matt Neary的网友大开脑洞:既然ChatGPT会写代码,那能不能让它通过代码做数学题,实现「曲线救国」?

可以看到,1000和1062谁更大这个问题,ChatGTP一如既往地犯了蠢。

而在Neary使用一个基于GPT的函数mathnerd后,它倒是得出了正确答案。

看来,诀窍就是要利用GPT擅长编码但不擅长算术的事实。下面是 mathnerd 的完整实现:

每20来天,就更新一次

其实,这已经不是ChatGPT第一次更新了。

在1月9日,OpenAI就发布过一次ChatGPT更新的消息。

「我们对ChatGPT模型进行了一些改进!在广泛的主题上,它的表现会更好,并且在真实性上也得到了提高。」

另外,现在在ChatGPT生成响应的过程中,你可以让它马上停止。不得不说,这个升级还挺重要的。

这是今年ChatGPT的第一次更新,也是自去年11月ChatGPT推出以来的第二次更新。

那段时间里,ChatGPT已经经历了数次长时间的宕机,而推出更新后,ChatGPT就开始以新模型启动并运行。

因为这个更新说明中的信息有限,因此有记者亲自上手测试了一下,看更新后的ChatGPT究竟有何重大改进。

首先,他让ChatGPT自己说说,自己究竟更新了啥。

ChatGPT是OpenAI开发的一种大型语言模型,它在对话文本数据集上进行训练。由于它是一个OpenAI模型,它会定期更新以提供新功能和改进。


但是,由于我的知识中断是在2021年,我没有最新的更新,我无法向您提供有关在最近的更新中向模型添加了哪些新功能或改进的具体信息。

看来,它很明白自己的知识体系建构于2021年前的「旧时代」,因而说不清楚自己的更新。这个理由很有说服力。

这位记者又换了一种问法,于是ChatGPT解释了AI模型是如何提高准确性的。

一般来说,对像ChatGPT这样的AI模型进行更新时,要提高它在一个或多个方面的性能。


例如,它可以使用更大的数据集进行训练,或者改进其架构,使其能够生成更流畅和准确的响应。


而且这种更新也使它在事实性方面变得更好,即它能够根据事实信息理解和生成响应。

再之前的一次更新,则是12月15日。

一些实测

GitHub上有一个存储库,记录着让ChatGPT折戟的问题。

项目地址:https://github.com/giuven95/chatgpt-failures

这名记者运行了多个提示,来测试ChatGPT在这轮升级后是否能产生不同的答案。

测试一:失败

此前,ChatGPT无法准确回答阿根廷获得过多少次世界杯冠军。

因为ChatGPT的知识仅限于2021年,抛开2022年阿根廷在世界杯夺冠这次,ChatGPT的正确回答应该是两次,一次在1978年,一次在1986年。

然而,ChatGPT无法提供正确答案。

那更新后的ChatGPT(1月9日)能回答对吗?

是我们期待值太高了,它依然回答错误……

测试二:失败

此前,当被问到奥尼尔和姚明谁更高时,ChatGPT无法提供正确答案。

而更新后的ChatGPT(1月9日),也并没有任何长进。

2.16米的奥尼尔比2.29米的姚明高,ChatGPT,可真有你的。

有趣的是,这次更新后的ChatGPT(1月30日)依然无法正确回答相同的问题,但只要换个问法就能解决了。

这么看来,「提示工程」在很长一段时间内,都非常重要。

日活已达1000万!

虽然无法摆脱「满嘴跑火车」的bug,但人们依然无法抵挡ChatGPT的魅力。

根据ARK Invest的预测,ChatGPT已经到达了一个非凡的里程碑,短短40天内,它的日活数就达到了1000万。

1月25日,ARK Venture Investment的首席未来学家Brett Winton发推称,ChatGPT用了40天达到1000万日活数,而Instagram达到这个数,用了355天。

然而,Winton的推特下面,有用户表达了不同意见:「人们对ChatGPT的新鲜劲儿很快会过去,而Instagram会发展得更快。」

而Winton回答:「如果ChatGPT被造出来只是为了好玩,那可太不幸了。」

参考资料:
https://help.openai.com/en/articles/6825453-chatgpt-release-notes
https://www.searchenginejournal.com/openai-chatgpt-update/476116/#close
https://twitter.com/_mattneary/status/1601288879780134912



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型ChatGPT官方鉴别器紧急发布!当代自相矛盾,不想却遭遇群嘲ChatGPT是怎么变得这么强的?拆解追溯ChatGPT各项能力的起源刚刚,ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了1道美国小学5年级数学题,竟考倒一众PhD集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布React官方网站更新,并启用新域名:react.devOpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化敲警钟!蔚来官宣数据被窃取,遭勒索225万美元腾讯发布数字孪生云,四大核心技术加速万物孪生重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患开局打爆谷歌,微软ChatGPT版必应亲测:强到发指!听爷爷奶奶们“杀鸡”全美房租负担最重城市出炉 纽约居首!已满负荷,ChatGPT官网无法登陆!迪士尼计划裁员7千!温哥华总领事杨舒做客温哥华中文电台中国版ChatGPT来了!能讲四川话会算鸡兔同笼,但我兴奋不起来ChatGPT到底有多聪明?我测试了ChatGPT的数学能力我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患柏林—Anhalter Bahnhof斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事刚需!吃透小学数学重难点,紧扣课本,数学轻松“拔尖”奥密克戎XBB.1.5成美国头号流行毒株,免疫逃逸能力史上最强,学校复课拉响预警据说这些是2022年GRE考试中最难的数学题!?2天1夜跨越东西半球!小编亲测带娃长途飞行血泪经验:早知道机场这些规定就好了ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!把家务甩到社会很危险落地正当时,谁能讲出新故事?| 2022雷峰网「飞天入地出海 · 年度科技榜」新ChatGPT必应回归!三种人格一键切换,小编亲测全是亮点微软爆炸级更新ChatGPT搜索服务,科技公司一夜回春!重磅!ChatGPT官方API发布:输出100万词只要2.7美金,成本砍掉90%安大略省79号议案受阻,加拿大社会仍然歧视华人?ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇这是一篇意林小编与ChatGPT共同完成的文章能写作业、能写诗、能讲笑话,还能哄女朋友?!到底还有什么是ChatGPT做不到的???感恩节后在家养羊/阳写诗、写代码、做数学题……聊天机器人ChatGPT为什么这么强?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。