Redian新闻
>
数学界AlphaGo来了!攻破奥数难题登Nature,接近人类金牌水平

数学界AlphaGo来了!攻破奥数难题登Nature,接近人类金牌水平

科技

谷歌连发两大AI数学模型,奥数金牌得主亲自点赞。
作者 |  李水青
编辑 |  心缘
智东西1月18日报道,1月17日,谷歌研发的AI数学模型AlphaGeometry登上国际顶刊Nature。AlphaGeometry能解决几何问题,解题水平接近人类奥林匹克金牌得主,有望成为AI迈向通用人工智能的一个重要里程碑。

在针对30道奥数几何题的基准测试中,AlphaGeometry在规定的奥数解题时间内成功解决了25道题。相比之下,此前最先进的机器系统仅解决了其中10道题,而人类金牌得主的平均解题数量为25.9道。

AlphaGeometry采用神经语言模型的预测能力规则约束推演引擎相结合的方法,就像人类的慢思考+慢思考,两者协同找到问题解法。
谷歌还合成了包含1亿个独特的几何问题示例的数据集,支持AlphaGeometry在没有任何人类演示的情况下自行训练,也就是自己“刷题提分”。
“对他们能够成功应用AI解决问题感到惊讶,这确实是一项令人印象深刻的成就。”数学领域的国际最高奖项之一菲尔兹奖金牌得主NGÔ BẢO CHÂU如此评价道。
他指出,研究人员往往首先尝试用AI解决IMO(国际数学奥林匹克竞赛)几何问题,这能理解。因为寻找解决方案的过程有点像下国际象棋,每一步中合理的走法数量都相当有限。
2023年12月15日,谷歌推出的的数学大模型FunSearch刚刚登上Nature,这一AI系统在“帽子集(Cap set)”等经典数学难题上超越了人类数学家。(《DeepMind大模型登Nature!AI首度攻破经典数学难题,赢过人类数学家》
仅仅一个月后,AlphaGeometry成果再次登上Nature,同时谷歌将AlphaGeometry的代码和模型,与合成数据生成和训练中的其他工具和方法一起在GitHub上开源。

论文地址:
https://www.nature.com/articles/s41586-023-06747-5
GitHub地址:
https://github.com/google-deepmind/alphageometry

01.
“快思考+慢思考”,AI解决25道奥数题,接近人类金牌得主


AlphaGeometry采用的是神经符号法,这种方法融合了神经语言模型符号推演引擎,两者相辅相成,共同寻找复杂几何定理的证明。
就像我们常说的“快思考与慢思考”一样,其中一个系统负责快速、直觉性的思考,而另一个系统则负责更为深入、理性的决策。
语言模型擅长从数据中捕捉一般规律和关系,因此能够快速预测出可能有用的结构。但它们的缺点在于,往往不能提供严谨的推理或解释其决策的依据。
相比之下,符号推演引擎则基于形式逻辑,使用明确的规则来得出结论。它们的推理过程既理性又可解释,但可能在处理大型、复杂问题时显得“慢”且不够灵活。
AlphaGeometry的语言模型能为符号推演引擎指明方向,引导它寻找几何问题的可能解决方案。
奥林匹克几何问题通常基于图形,需要通过添加新的几何构造(如点、线或圆)来解决。而AlphaGeometry的语言模型能够从众多可能性中预测出哪些新构造的添加最有可能带来帮助。
这些预测为符号推演引擎提供了有力的线索,使其能够对图形进行更深入地推理,并逐步接近解决方案。
在谷歌根据2000年至2022年奥林匹克竞赛题目编制的30道奥林匹克几何问题基准测试集(IMO-AG-30)中,AlphaGeometry在比赛时间限制下解决了25道问题,这一成绩已接近人类金牌得主在这些相同问题上的平均得分。而此前最先进的方法,即“吴氏方法”,仅解决了10道题。
来看一个具体的例子:2015年国际数学奥林匹克的一道题目(如图左侧所示)和AlphaGeometry的精简版解决方案(如图右侧所示)。在解决方案中,蓝色元素表示添加的构造。AlphaGeometry的解决方案共包含了109个逻辑步骤。

▲AlphaGeometry关于奥数例题的解决方案

简单来说,AlphaGeometry的解题过程是这样的:首先,给定一个问题图形及其定理前提(如图左侧所示),AlphaGeometry会使用其符号推演引擎推导出与图形相关的新陈述(如图中间所示),直到找到解决方案或无法再推导出新陈述为止。
如果在这个过程中没有找到解决方案,那么AlphaGeometry的语言模型就会发挥作用,添加一种可能有用的几何构造(如图中的蓝色部分所示),从而为符号推演引擎开辟新的推理路径。这个过程会一直重复进行,直到找到解决方案为止(如图右侧所示)。在这个例子中,只需要添加一种构造就找到了解决方案。

▲AlphaGeometry的解题过程示意


02.
合成1亿个综合数据示例
从零开始自己“刷题”


几何依赖于对空间、距离、形状和相对位置的理解,是艺术、建筑、工程和许多其他领域的基础。
人类通过笔和纸学习几何,检查图表,并运用现有知识发现更复杂的几何属性和关系。
谷歌开发了一种合成数据生成方法,能大规模模拟这种知识构建过程,让AlphaGeometry能够从零开始训练,完全不依赖人类演示。
借助高度并行计算能力,系统首先生成了数十亿个随机几何图形,并详细推导出了每个图形中点与线之间的所有关系。
AlphaGeometry能找到每个图形中所有的证明路径,然后回溯找出为了得出这些证明需要添加哪些额外的结构。谷歌称之为“符号推演与回溯”。

▲AlphaGeometry生成的合成数据的视觉展示

这个庞大的数据池经过筛选,排除了相似的例子,最终形成了包含1亿个不同难度独特示例的训练数据集,其中900万个包含了新增的构造。
有了这么多关于构造如何产生证明的实例,AlphaGeometry的语言模型在遇到奥林匹克几何问题时,能对需要添加的新构造提出有见地的建议。

03.
谷歌连发两大AI数学模型
奥数金牌得主亲自点赞


AlphaGeometry为每一道奥数题提供的解法都经过了计算机的严格检查和验证。
谷歌还拿它的表现与之前的AI方法以及人类在奥林匹克竞赛中的成绩做了对比。此外,谷歌也请来了数学教练、前奥林匹克金牌得主Evan Chen,为其评估AlphaGeometry的一系列解题方案。
Chen谈道:“AlphaGeometry的表现让人眼前一亮,它的答案既准确又清晰。”
“过去,一些基于证明的竞争性问题的AI解决方案往往是碰运气(有时候答案正确,但需要人工复查)。但AlphaGeometry没有这个问题:它的解决方案都是结构化的,可以被机器自动验证。同时,它的答案也很人性化,易于理解。你可以想象一个计算机程序通过复杂的坐标系来解决几何问题:一页又一页全是繁琐的代数计算。但AlphaGeometry不是这样的。它就像学生一样,运用角度和相似三角形等经典几何规则来解题。”
虽然每个奥林匹克竞赛都包含六个问题,其中只有两个通常涉及几何,这意味着AlphaGeometry只能应用到给定奥林匹克竞赛中三分之一的问题。
但即便如此,仅凭其在几何方面的能力,AlphaGeometry就成为了世界上第一个能够在2000年和2015年跨越IMO铜牌门槛的AI模型。
在几何领域,谷歌的系统已经达到了IMO金牌得主的水平。但谷歌并不满足于此,谷歌的目标是推动下一代AI系统的推理能力。
考虑到利用大规模合成数据从头开始训练AI系统的巨大潜力,这种方法可能会对未来AI系统在数学及其他领域的新知识发现产生深远影响。
AlphaGeometry是在Google DeepMind和Google Research的工作基础上开发的,它开创了AI数学推理的先河——从探索纯数学之美到使用语言模型解决数学和科学问题。
最近,谷歌还推出了FunSearch,这是首个使用大型语言模型在数学科学的开放问题中取得发现的项目。

04.
结语:AI破解几何难题
通用人工智能的新里程碑


谷歌研发的AI数学模型再登国际顶刊Nature,展示了AI在几何问题解决上的强大能力。图形是非常抽象且考验逻辑的,谷歌开创性地通过将神经语言模型和符号推演引擎结合,使得AI实现了远高于此前系统和匹敌人类奥数金牌得主的水平。
这一突破可能意味着AI迈向通用人工智能的重要里程碑,不仅为AI领域带来了新的突破,更可能成为数学和工程、艺术等领域常用的工作方法。谷歌DeepMind的研究只是一个开始,未来以AlphaGeometry为代表的AI方法将继续迭代,在更多领域释放自己的潜力。
来源:谷歌、Nature

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
登Nature子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来AI破译2000年前「上古卷轴」登Nature头版!21岁计算机天才,谷歌华人工程师共获大奖邙山窑洞奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞过洛水数学领域的“AlphaGo”:DeepMind最新AI模型,打破奥数天花板谷歌DeepMind科学家「被爆将离职创业」!曾参与AlphaGo、Alphafold工作,首轮融资或超2亿美元打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题游泳赛GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类重游商场奥数逼近金牌水平!谷歌最新AlphaGeometry模型登上Nature!菲尔兹奖得主点赞降脂药新突破!1期研究显示,全球首个口服降Lp(a)药物可显著降低Lp(a)水平全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分“我在海外上奥数学校,聊聊竞赛那些事”不学奥数竞赛,一样可以靠数学天赋直升清华大学——评2024年新领军入围名单AI Agent自主设计全新蛋白质登Nature!威斯康星大学让机器人科学家做实验,无需人类帮助陶哲轩用AI证明数学猜想实乃误读,但数学界仍大受震动361°鞋断码清仓79;大牌水果罐头*8 19.9;南极人内裤4条19.9文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费AI的几何学能力接近奥赛金牌选手;奥特曼:人类水平的AI即将出现,但影响会远比想象中小 | 环球科学要闻头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像登上Nature,剑桥团队开发新型tRNA展示技术,有潜力合成多种新材料,已申请专利包先生 x Polo Ralph Lauren特别合作款,终于来了!!谷歌数学AI登Nature:IMO金牌几何水平,定理证明超越1978年吴文俊法AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!达摩院医疗AI攻克胰腺癌早筛难题,成果登上顶级期刊《Nature Medicine》世界首个石墨烯半导体登Nature,中美团队为摩尔定律续命10年!最近几部剧的观感 - 好久不见纯AI研发新药登Nature,效率提升3倍,临床实验疗效拔群为什么尿尿是黄色的?2024年Nature子刊刊登发现尿液是黄色的潜在机理,破解百年难题!Nature |利用6156个人类基因组序列成功构建出人类基因组约束图谱AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。