Redian新闻
>
陶哲轩支持!AI奥林匹克数学奖来了,奖金500万美元,寻找能得IMO金牌的大模型

陶哲轩支持!AI奥林匹克数学奖来了,奖金500万美元,寻找能得IMO金牌的大模型

公众号新闻
丰色 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

专门为AI设立的IMO国际奥林匹克数学竞赛来了——

奖金足足1000万美元那种!

该比赛号称要“代表新的图灵测试”,怎么比?

和人类最聪明的数学小天才们正面PK,拿到同样标准的金牌

可别小看这一赛事,就连数学大牛陶哲轩都来了,并在官网倾力推荐:

这个比赛提供了一套鉴别AI解决问题策略的基准,而这正是我们现在需要的。

消息一出,网友们是相当兴奋。

如IMO主席所说:到底哪个大模型能和世界上最聪明的一波年轻人相媲美?

所谓“重赏之下,必有勇夫”,有着自己路数的AI也着实令人期待。

AI参赛IMO,最高拿500万美元

这项比赛的简称AI-MO

它的初衷就是推动大语言模型的数学推理能力,鼓励开发能够匹配人类数学最高水平(IMO竞赛)的新AI模型。

为什么选IMO为基准?

IMO的题目一般分为代数、几何、数论和组合数学四大类,不需要高等数学知识,但需要参赛者有正确的思维方式和数学素养。

统计显示,其金牌获得者夺得菲尔兹奖的可能性是普通剑桥博士毕业生的50倍。

此外,有一半的菲尔兹奖获得者曾参加过IMO竞赛。

基于该比赛,这项专门为AI举办的AI-MO大赛将于2024年初开放

组委会要求,参加的AI模型必须和人类选手采用相同的格式处理题目,并且必须生成人类可读的最终答案,然后由专家小组使用IMO标准对其进行评分。

比赛结果将随明年7月在英国巴斯举行的第65届IMO大会一同揭晓。

最终,达到金牌水平的AI将获得500万美元的大奖。

剩余“实现了关键里程碑”的AI模型们则瓜分剩下的进步奖,总金额也是500万美元

值得一提的是,为了拿到获奖资格,参赛者必须遵守AI-MO公共共享协议,也就是获奖模型必须得开源

至于具体的规则,组委会还在商议中,以及目前官方还在招募顾问委员会成员(特别需要数学家、AI和机器学习专家)和领导这项比赛的总监,都是付费的且可以完全远程,不知道哪些大佬会加入。

不过需要注意的是,AI-MO并非IMO官方发起的比赛。

其真正的发起机构是XTX Markets,一家位于英国伦敦、搞机器学习量化交易的非银行金融机构。

别的不说,XTX Markets主打一个豪气。

它还在去年和牛津大学一起设立了一个专门鼓励女学生研究数学的奖学金。

而对于比赛本身,有网友也开始了一波猜测:哪个AI模型最有希望?

带Wolfram插件的GPT-4第一个被拎出来,不过它也最先被泼了冷水。

但,它背后的OpenAI还是被人看好(尽管大型科技公司并不是该比赛的目标受众)。

有悲观的网友则直接断言:

比赛是挺酷的,但五年内应该没有谁能做到。

与此同时,有人也认为:

训练出这样一个模型并不算难,难的是获取和处理数据,毕竟这些题目不单单涉及文本,还包括很多复杂含义的图像和符号。

一切皆等2024年揭晓。

值得一提的是,AI-MO并非第一场AI挑战IMO的比赛。

2019年,OpenAI、微软、斯坦福大学和谷歌等高校机构的几位研究人员,就已经发起过一场名为IMO Grand Challenge的比赛了。

此前挑战尚未有人成功

IMO Grand Challenge,同样是为了找到能拿下IMO金牌的AI而设立的比赛。

来看看这场数学比赛为AI设立的5点规则:

关于格式。为了确保证明过程的严谨性和可验证性,问题和证明都需要通过形式化(formal,机器可验证)的方式来完成。

也就是说,IMO问题会通过Lean定理证明器,将问题转变成基于Lean编程语言的表达输入给AI,AI同样需要用Lean编程语言写出证明。

关于得分。AI的每个证明题都会在10分钟内被判断对错,因为这也是IMO裁判评分的时间。与人类不同,AI没有“部分得分”这一说法

关于资源。和人类一样,AI每天需要用4.5小时解决3道题(共比赛两天),计算资源没有限制。

关于可复现性。AI必须开源,并在IMO第一天结束前公开模型、而且可复现。要求AI不能联网。

关于挑战本身。最大的挑战是让AI像人类一样获得金牌🏅

这场比赛由7位AI研究学者和数学家发起:

OpenAI的Daniel Selsam、微软的Leonardo de Moura、帝国理工学院的Kevin Buzzard、匹兹堡大学的Reid Barton、斯坦福大学的Percy Liang、谷歌AI的Sarah Loos和拉德堡德大学的Freek Wiedijk。

如今4年过去,陆陆续续也收到了一些参赛者的关注。

不过,虽然不少AI和数学研究者都试图挑战过这一领域、或是领域中的一个小目标,但距离最终的夺得IMO冠军目标都还有很远。

甚至有建议认为这场比赛要不要设立一个“简单模式”:

例如,研究者Xi Wang尝试过使用几种现有的SMT求解器来做IMO真题,但效果一般。

当时现有的AI虽然能证明一些不太困难的IMO真题,如证明拿破仑定理(以任意三角形各边为边分别向外侧作正三角形,则它们的中心连线必构成一个正三角形)。

但在证明其他的一些真题如IMO 2019的几何题时,现有的几个求解器就做不出来、或是超时了半小时。

又像是OpenAI研究员(当时还在微软)Dan Selsam和Jesse Michael Han,也曾经针对AI解IMO几何题研究了一段时间,并总结了一篇博客。

这篇博客介绍了他们如何捣鼓出一个几何求解器,以及设计几何求解器的步骤,具体包括:

几何表示、约束求解、算法选择、求解器架构、挑战与解决方案。

例如其中的几何表示,就是将几何问题表示为计算机可以理解并处理的格式,反过来也一样,包括用几何求解器自动将编程语言转换为图表、便于人类阅读:

此外,还介绍了如何根据不同的IMO几何题型选择合适的求解算法,等等。

但即便如此,这篇博客并没有给出具体的求解方案,只在结论处说明“求解器有可能实现赢得IMO金牌的目标”。

而且,上述挑战者针对的几何题,也只占据IMO题型的四分之一(还有代数、组合和数论)……

虽然发起4年,仍然没有一个真正的AI“IMO全能选手”出现,不过作为这个点子的鼻祖,IMO Grand Challenge仍然在业界掀起了不少波澜。

Alex Gerko坦言,IMO Grand Challenge也正是他举办AI-MO的契机:

是时候给“AI挑战IMO”整点刺激的了!

当然,这次AI-MO的奖金也确实引起了IMO Grand Challenge举办方和不少挑战者的注意:

不知道在金钱💰的驱动下,业界是否真会出现一个能解困难数学题的AI,并成功超越一众人类夺得IMO金牌。

从目前实力来看,你认为哪家的AI最有可能率先拔得头筹?

参考链接:
[1]https://twitter.com/AlexanderGerko/status/1729113193706832265
[2]https://imo-grand-challenge.github.io/
[3]https://aimoprize.com/

MEET 2024大会定档!

最新嘉宾阵容公布

12月14日,量子位「MEET2024智能未来大会」不容错过!点击报名线下现场

李培根院士、李开复博士及十余位AI各领域领先企业核心负责人已确认出席!戳此了解嘉宾详情:第二批嘉宾来袭!报名MEET2024的理由,今天又多了一个

< 左右滑动查看嘉宾海报 >

点击“预约”按钮,一键直达大会直播现场!


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌数学AI登Nature:IMO金牌几何水平,定理证明超越1978年吴文俊法GPT-4野生代言人陶哲轩:搞论文学新工具没它得崩溃!11页“超简短”新作已上线国际重奢卷疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!GitHub Copilot让陶哲轩感到“不安”「第一期」THINK Talk——来自四位IMO金银牌的分享陶哲轩论文漏洞竟被AI发现,26年预言要成真!看定理名猜出研究方向,大神直呼AI能力惊人AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分想象才是皇帝新衣之精要亚马逊正在开发“奥林匹斯”AI,以缩小与OpenAI和微软的差距;三星或自研光线追踪和AI超采样技术丨AIGC日报陶哲轩再逼近60年几何学难题!周期性密铺问题又获新突破陶哲轩疯狂安利Copilot:它帮我完成了一页纸证明,甚至能猜出我后面的过程北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型列治文山夫妇悬赏5000元,寻找婚礼当天丢失的爱犬!2023HiShorts! 创投全新升级—青年文化/奥林匹亚/现实主义/文艺复兴四大厂牌内容征集不想知道谁对谁错又是一年中秋夜,小酌一杯小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大财源滚滚!这三名纽约人各赢得20万美元的强力球奖金....头奖奖金继续飙升至8.1亿元到伦敦逛大英博物馆AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈陶哲轩用AI证明数学猜想实乃误读,但数学界仍大受震动全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说陶哲轩:我用GPT-4辅助证明不等式定理,论文还会上传arXiv国际奥委会全会通过《奥林匹克宪章》修正案李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型陶哲轩上手Copilot:不可思议,它能从定理名字猜出我想要的方向2023中文大模型基准测评报告发布;微软Copilot将升级至GPT-4 Turbo;AI奥林匹克数学奖设立丨AIGC大事日报人生六十最美滿双11特惠|国际重奢疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!8点1氪:多平台出现外卖恶意赔付教程;周杰伦上海巡演首场4名黄牛被行政拘留;国际奥委会正考虑创办奥林匹克电子竞技运动会打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题I-5奥林匹亚附近发生惨烈车祸,27岁男子酒驾逆行撞死31岁孕妇和她2岁的儿子免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!「陶哲轩×GPT-4」合写数学论文!数学大佬齐惊呼,LLM推理神助证明不等式定理恭喜!纽约市售出两张奖金5万美元的强力球彩票
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。