Redian新闻
>
谷歌、OpenAI学者谈AI:语言模型正在努力「攻克」数学

谷歌、OpenAI学者谈AI:语言模型正在努力「攻克」数学

公众号新闻

选自IEEE

作者:Dan Garisto

机器之心编译

编辑:陈萍

AI 到底擅不擅长数学,还得具体问题具体分析。


如果问计算机擅长什么,在所有的答案里,数学必须榜上有名。在经历了漫长的研究之后,顶尖学者们在研究计算机关于数学计算方面的发展,取得了令人惊讶的成绩。


就拿去年来说,来自加州大学伯克利分校、OpenAI 和 Google 的研究人员在语言模型方面取得了长足的进步,GPT-3、DALL·E 2 等被开发出来。然而,直到现在,语言模型还无法解决一些简单的、用语言描述的数学问题,例如「Alice 比 Bob 多五个球,Bob 在给 Charlie 四个球后有两个球。问 Alice 有几个球?」这对语言模型来说,想要给出正确答案,可能就有点「吃力」了。


「当我们说计算机非常擅长数学时,意思是它们非常擅长特定的、具体的事情,」来自谷歌的机器学习专家 Guy Gur-Ari 表示。计算机擅长算术是不假,但在特定的模式之外,计算机就无能为力了,简单的文字描述题都回答不了。


谷歌研究员 Ethan Dyer 曾经表示:做数学研究的人有一套僵化的推理系统,对于他们熟知的和不了解的内容,这两者之间有着明显的鸿沟。


解决文字问题或定量推理问题很棘手,因为不同于其他问题,这两者需要鲁棒性和严谨性。如果过程中的任何一步出现错误,将会导致错误的答案。DALL·E 在绘画方面令人印象深刻,尽管它生成的图像有时会很奇怪,可能遗漏人的手指、眼睛长得奇怪…… 这些我们都能接受,但是它在数学方面出现了错误,我们的容忍度就会非常小。来自 OpenAI 的机器学习专家 Vineet Kosaraju 也曾表达过这种想法,「我们对语言模型所犯的数学错误(比如将 10 误解为 1 和 0,而不是 10)容忍性还是比较小的。」


「我们研究数学仅仅是因为我们发现它独立且非常有趣,」OpenAI 机器学习专家 Karl Cobbe 说。


随着机器学习模型在更大的数据样本上训练而成,它们的鲁棒性更好、出错也更少。但扩大模型规模似乎只能通过定量推理进行。研究人员意识到,对于语言模型所犯的错误似乎需要更有针对性的方法来解决。


去年,加州大学伯克利分校和 OpenAI 的两个研究团队分别发布了数据集 MATH 和 GSM8K,这两个数据集包含几何、代数、初等数学等数千个数学问题。「我们想看看这是否是数据集的问题,」从事数学工作的 AI 安全中心研究员 Steven Basart 说。众所周知,语言模型不擅长单词问题,在这个问题上它们表现的有多糟糕,是否可以通过引入格式更好、更大的数据集来解决? 


在 MATH 数据集上,顶级语言模型的准确率为 7%,而人类研究生的准确率为 40%,奥林匹克冠军的准确率为 90%。在 GSM8K 数据集上(小学级别的问题),模型达到了 20% 的准确率。实验中 OpenAI 使用了微调和验证这两种技术,结果表明模型可以看到很多自身错误的例子,这一发现很有价值。


当时,OpenAI 的模型需要在 100 倍以上的数据上进行训练,才能在 GSM8K 上达到 80% 的准确率。但在今年 6 月,谷歌发布了 Minerva,达到 78% 的准确率。这一结果超出了预期,研究者表示,比预想的时间来的更快。


论文地址:https://arxiv.org/pdf/2206.14858.pdf


Minerva 基于谷歌自研的 Pathways 语言模型 (PaLM),具有更多的数学数据集,包含 arXiv、 LaTeX 等数学格式。Minerva 还采用了其他策略,在思维链提示(chain-of-thought prompting)中,Minerva 将更大的问题分解成小块。此外,Minerva 还使用多数投票(majority voting),不是要求模型给出一个答案,而是要求它提出 100 种答案。在这些答案中,Minerva 选择最常见的一种答案。


这些新策略的收益是巨大的,Minerva 在 MATH 上的准确率高达 50%,在 GSM8K 以及 MMLU(包括化学和生物学在内的一组更通用的 STEM 问题)上的准确率接近 80%。当 Minerva 被要求重做稍微调整过的问题时,它的表现同样很好,这表明它的能力不仅仅是来自记忆。


Minerva 可能有奇怪、混乱的推理,但仍然得出正确的答案。尽管像 Minerva 这样的模型可能会得出与人类相同的答案,但它们所遵循的实际过程可能大不相同。


谷歌机器学习专家 Ethan Dyer 表示,「我认为存在这样一种观念,即数学相关人士有一些严格的推理系统,了解某事和不了解某事之间存在明显的区别。」但人们给出的答案不一致,会犯错误,也无法应用核心概念。在机器学习前沿中,边界是模糊的。


原文链接:https://spectrum.ieee.org/large-language-models-math


2022 NeurIPS China Meetup


2022 NeurIPS Meetup China 将设置 Keynote、圆桌论坛、论文分享、 Poster 展示、企业招聘等环节,邀请顶级专家、论文作者与现场参会观众共同交流。
  • 举办时间:2022年11月26日9:00-18:00

  • 举办地点:北京丽都皇冠假日酒店
本次活动免费,欢迎大家点击「阅读原文」报名,我们将在审核后反馈报名结果。
同时欢迎论文作者作为嘉宾参与论文分享与 Poster 展示,请在报名页面提交演讲主题、论文介绍等信息,我们将与你联系沟通相关事宜。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
品牌出海新势力「Qpendo」获天使轮投资,围绕高频品类做跨境电商|36氪首发在人间|鄱阳湖大旱之年,江豚和渔民都在努力活下去终身致力于数学教育的美国数学家说,与现实脱节的数学课,对99%的学生都没有用打响跨域/中央计算「攻坚」战,这些头部企业已经抢先布局下周重大日程:苹果、华为、OPEC+、欧洲能源,全市场观会的一周移民局新规则:语言学校将不符合申请学生签证精选SDE岗位 | Cisco、OpenGov、Color Health等公司发布最新岗位!一个人的徒步,900公里法国之路+世界尽头:D44~最好的生日礼物Java 近期新闻:OmniFish 简介、Oracle 加入 Micronaut 基金会、OpenJDK 升级Java 近期新闻:Spring Framework 6、JCP 选举、Valhalla 项目、OpenJDK 更新小儿腹泻更新年轻数学家攻克数十年难题,猜想提出者:我没想到这么快见到真贵族!清宫剧都弱爆了(图)只用300小时,17岁高中生解开困扰数学家27年难题,因张益唐「入坑」数论对预训练语言模型中跨语言迁移影响因素的分析算力就这么点,如何提升语言模型性能?谷歌想了个新点子孩子得新冠有多可怕?儿子和新冠10天搏斗「攻略」,希望你们永远用不上资本家只用鞍钢宪法中部分内容参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」bāo huā shēng?bō huā shēng?不可错过!普林斯顿陈丹琦最新《大语言模型理解》2022课程!全面讲述BERT、GPT、T5等大模型,附SlidesPLM是做题家吗?一文速览预训练语言模型数学推理能力新进展微信推出自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务,匹敌大其25倍的模型这届年轻人,正在努力与温暖的世界相处“被闪电击中2次”的中国数学家!张益唐再次攻克世界数学难题!自称比上一个意义还大刚刚,华人数学家张益唐宣称攻克Landau-Siegel零点猜想都是令人感动的事情 都在努力的好好生活膜拜欧皇!$5000万强力球得主终于现身!时隔3天才知一夜暴富,“还在努力消化这件事”(组图)原始森林中的初恋$5000万强力球得主终于现身!时隔3天才知一夜暴富,“还在努力消化这件事”有服装纺织厂今年准备提前放假?企业接单意愿不强但还在努力挺过去跨域/中央计算进入「攻坚」阶段,TOP10全域智能化Tier1「抢市」ChatGPT幕后大佬、OpenAI CEO:关于如何获得非凡成就的13条思考复旦邱锡鹏:语言模型即服务,走向大模型的未来
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。