Redian新闻
>
鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值

鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值

公众号新闻
机器之心报道
机器之心编辑部

连三位数的混合运算都算不明白,ChatGPT 对数学家来说有用吗?

ChatGPT 不擅长数学,这是大家刚开始测试时就发现的问题。比如你问它一个「鸡兔同笼」问题,它可能写出一个看上去非常有条理的解题过程,但仔细一看,答案却是错的。


为了解决这个问题,OpenAI 也做了一些优化,并在今年 1 月末宣布 ChatGPT 数学能力升级。但从测试的结果来看,这次升级效果并不明显。


但这么一个连三位数混合运算都算不明白的工具却吸引了著名数学家陶哲轩的注意。最近一段时间,他似乎一直在探索 ChatGPT 能帮数学研究者做些什么。


通常来讲,如果你经常阅读数学文本,你会很容易找到一些线索,这些线索可以帮你评估某个特定论证部分的有效性、深度和重要性。这会加快你的阅读速度,让你可以迅速分离出论文的「肉」。陶哲轩总结说。


但 AI 生成的数学文本给了他截然不同的阅读体验:文本乍一看很有说服力,但只有慢慢地逐行阅读才能发现其中的缺陷。


在一次测试中,它向 ChatGPT 提了一个数学问题。乍一看,答案惊人地准确,因为它提到了一个高度相关的术语,还讨论了一个例子,这在一个有意义的答案中是非常典型的。但其实,ChatGPT 给出的答案并不完全正确:公式是对的,但不是有用的定义,例子也是错的。


在另一个关于「素数是否无穷多」的证明问题中,ChatGPT 给出的答案也并不完全正确。


虽然测试结果不太令人满意,但陶哲轩并没有对 ChatGPT 持完全否定的态度。他认为,像 ChatGPT 这类大型语言模型在数学中可以用来做一些半成品的语义搜索工作,也就是用它来生成一些提示。


比如在下面这个例子中,陶哲轩提出的问题是:「我在寻找一个关于 xx 的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?」在这轮问答中,虽然 ChatGPT 没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre 公式),我们可以结合传统搜索引擎轻松找到正确答案。


从这些测试中,我们可以看到 ChatGPT 这类 AI 工具与传统计算机软件的区别。


传统的计算机软件类似于函数𝑓:𝑋→𝑌:给定域𝑋中的输入𝑥,它可靠地返回范围𝑌中的单个输出𝑓(𝑥),该输出以确定的方式依赖于𝑥。但如果给定域外的输入(比如大括号用错,或者出现其他格式问题),则软件会出现无法定义的情况,或给出无意义的内容。


相比之下,AI 工具类似于概率 kernel μ:𝑋→Pr (𝑌),而不是经典函数。输入𝑥,它们会给出一个从概率分布 μ_ₓ采样的随机输出。这个概率分布在𝑓(𝑥) 的完美结果附近,但带有一些随机偏差和不准确性。但优势在于,这些工具可以比传统的软件工具更优雅地处理嘈杂或格式不那么规范的输入𝑥。


因此,想用 ChatGPT 辅助自己做研究的数学研究者务必要习惯这种差异。


当然,在数学方向上,ChatGPT 当前的状态可能不会持续太久。


前段时间,计算机科学家、Wolfram 语言之父 Stephen Wolfram 提出了一个想法:将 ChatGPT 与自己的 Wolfram | Alpha 知识引擎结合起来用,因为后者本就具有强大的结构化计算能力,而且也能理解自然语言(参见《理工科神器 Wolfram|Alpha 注入超强计算知识,补足 ChatGPT 短板》)。


Meta 在 2 月份发布的一篇论文也支持这种做法。他们提出了一种名为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具,如搜索引擎、计算器或日历(参见《语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer》)。


在未来几年,如何补齐 ChatGPT 的各项短板将成为非常热门的方向。


参考链接:https://mathstodon.xyz/@tao


ChatGPT及大模型技术大会


机器之心将于3月21日在北京举办「ChatGPT 及大模型技术大会」,为圈内人士提供一个专业、严肃的交流平台,围绕研究、开发、落地应用三个角度,探讨大模型技术以及中国版 ChatGPT 的未来。

届时,机器之心将邀请大模型领域的知名学者、业界顶级专家担任嘉宾,通过主题演讲、圆桌讨论、QA、现场产品体验等多种形式,与现场观众讨论大模型及中国版 ChatGPT 等相关话题。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世百度文心一言揭开面纱!能续写《三体》,算“鸡兔同笼”题,将开启首批内测能通过AI撰写SCI论文?初探火爆到无法登录的ChatGPT,给我上了一课!用 AI 对抗 AI!斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本逛圣诞集市 | 柏林黄仁勋谈ChatGPT:AI迎来了它的「iPhone时刻」ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!跟ChatGPT,聊聊ChatGPT为什么所有公开的对 GPT-3 的复现都失败了?复现和使用 GPT-3/ChatGPT,你所应该知道的《狂飙》中欺负学霸的鸡兔同笼,为什么是重要的数学应用题型中国版ChatGPT来了!能讲四川话会算鸡兔同笼,但我兴奋不起来人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助ChatGPT升级版!GPT-4 能识图能算税,升级成考霸,华裔AI科学家点评:它可以自己考进斯坦福了三年来新冠主要症状的改变全球都为ChatGPT疯狂,它到底是风口还是虚火?深度解读风暴眼中的ChatGPT | 直播预约黄仁勋说chatGPT,AI迎来了它的iPhone时刻!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布陶哲轩:ChatGPT已加入我的数学工作流百度推出文心一言对标ChatGPT,我们问了它几个问题预告 | 鸡兔同笼、注排水...搞定应用题的神奇桌游 & 自然地理宝藏书和人文地理趣味漫画GPT-4太太太强了!能识图能算税,ChatGPT再次进化在“鸡兔同笼”和“洛阳纸贵”上,百度文心一言赢了?但是股价……全世界都在跟风ChatGPT,它的真正价值到底是什么?|直播预约橡树岭的秘密搅动100亿美金的ChatGPT,竟然这么依赖TA?OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化刚刚,百度文心一言揭开面纱!能续写《三体》,算“鸡兔同笼”题,将开启首批内测ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇《人民》就是全世界受苦的人!复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼大热的ChatGPT,28936 个 GPU!我们好像发现了一种很新颖的ChatGPT杀猪盘微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!青春未散场 仍是好时光
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。