Redian新闻
>
AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA

AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA

公众号新闻

机器之心报道

机器之心编辑部
Meta AI构建了一个神经定理证明器HyperTree Proof Search(HTPS),已经解决了 10 场国际数学奥林匹克竞赛 (IMO) 中的数学问题。


数学定理证明一直被视为构建智能机器的关键能力。证明一个特定的猜想是真是假,需要使用符号推理等数学知识,比简单的识别、分类等任务要难得多。


近日,Meta AI 构建了一个神经定理证明器 HyperTree Proof Search(HTPS),已经解决了 10 场国际数学奥林匹克竞赛 (IMO) 中的问题,比以往任何系统都更多。此外,该 AI 模型的性能比数学基准 miniF2F 上的 SOTA 方法高出 20%,比 Metamath 基准上的 SOTA 方法高出 10%。



论文地址:https://arxiv.org/pdf/2205.11491.pdf

在一定意义上,定理证明要比构建 AI 来玩国际象棋等棋盘游戏更具挑战性。当研究者试图证明一个定理时,可能移动的动作空间不仅很大而且有可能是无限的。相比较而言,在国际象棋或围棋中,这些游戏的一系列走法会被预测出来,即使算法没有给出最好的走法也影响不大。而在定理证明中,当算法走入死胡同就没办法解决了,性能再好的求解器也只是白费力气。Meta AI的新方法解决了这个棘手的问题,LeCun也转推称赞。



我们用一个例子来说明 HTPS 的优势:假设 a 和 b 都是质因子为 7 的自然数,并且 7 也是 a + b 的质因子,如果假设 7^7 可以整除(a + b)^7 - a^7 - b^7,那么请证明 a + b 至少是 19。


假如让人类来证明的话,他们大概率会用到二项式。而 HTPS 使用 Contraposition 方法,大大简化了方程,然后再检查多种不同的情况。


contrapose h₄,

  

simp only [nat.dvd_iff_mod_eq_zero, nat.add_zero] at *,

  

norm_num [nat.mod_eq_of_lt, mul_comm, nat.add_mod] at h₄,


如下图为本文模型发现的证明示例,即在 miniF2F 中另一个 IMO 问题的证明:



更接近人类的推理


为了使用计算机编写正式的数学证明过程,数学家最常用的方法是交互式定理证明器(ITP)。下图 1 是交互式定理证明器 Lean 中的一个证明示例:



相应的证明树如下:


给定一个要自动证明的主要目标 g,证明搜索与学习模型和定理证明环境交互以找到 g 的证明超树。证明搜索从 g 开始逐渐扩展出一个超图。当存在从根到叶子均为空集的超树时,即为证明完成。


以下图 5 证明过程为例,假设策略模型 P_θ 和批评模型 c_θ,以目标为条件,策略模型允许对策略进行抽样,而批评模型估计为该目标找到证明的能力,整个 HTPS 的证明搜索算法以这两个模型为指导。此外,与 MCTS 类似,HTPS 存储访问计数 N(g, t)(在节点 g 处选择策略 t 的次数)和每个策略 t 针对目标 g 的总动作(action)值 W(g, t)。这些统计数据将用于选择阶段。



HTPS 算法迭代地重复图 5 描述的选择、扩展、反向传播三个步骤来增长超图,直到找到证明或者超出扩展预算。

Meta 在三个定理证明环境中开发和测试 HTPS:a)Metamath,b)Lean 和 c)Metamath。Metamath 附带一个名为 set.mm 的数据库,其中包含 30k 个人类编写的定理。Lean 附带一个由人类编写的 27k 定理库,称为 Mathlib。最后,由于 Metamath 证明非常难以理解,因而 Meta 开发了自己的环境,称为 Equations,仅限于数学恒等式的证明。


为了模仿人类思维,神经定理证明器需要将特定状态和当前状态(对问题的理解)联系起来。Meta 首先从强化学习开始,该方法与现有的证明助手(proving assistants,例如 Lean)紧密结合。

Meta 将证明的当前状态解释为图中的一个节点,并将每一个新步骤解释为一条边。此外,研究者意识到还需要一种方法来评估证明状态的质量——类似于在棋盘游戏中 AI 需要评估游戏中的特定位置。


受蒙特卡洛树搜索 (MCTS) 启发,Meta 采用在两个任务之间进行循环:在给定证明状态下使用的合理参数的先验估计;给定一定数量的参数后的证明结果。


HTPS 是标准 MCTS 方法的变体,在该方法中,为了探索图,Meta 利用关于图的先验知识来选择一组叶进行展开,然后通过备份修正来改进初始知识。图是逐步探索的,关于图结构的知识随着迭代得到细化。


实验


每个实验都在单一环境(例如 Lean、Metamath 或 Equations)上运行,并将模型与 GPT-f 进行比较,它代表了 Metamath 和 Lean 的最新技术。



在 Lean 中,该研究在 A100 GPU 上使用 32 个训练器和 200 个证明器进行实验。经过 1 天的训练(即 (200 + 32) A100 天的计算),miniF2F 中的每个状态(statement)平均被采样 250 次,在 327 个状态中已经有 110 个被解决。本文的模型在 miniF2F-test 中优于 GPT-f,具有大约 10 倍的训练时间加速。


在 Metamath 中,该研究在 V100 GPU 上训练模型,使用 128 个训练器和 256 个证明器,表 3 报告了监督模型和在线训练模型的结果。


在 Equations 中,该研究使用 32 个训练器和 64 个证明器进行实验,在这种环境下,模型很容易学习随机生成器的训练分布,并解决所有综合生成的问题。


参考链接:https://ai.facebook.com/blog/ai-math-theorem-proving/


即将毕业,请回答!小红书正在呼唤懂AI的你


11月19日16:00 - 19:30 ,北京市海淀区成府路28号2层 PAGEONE(五道口店),小红书REDtech青年技术沙龙,设置「报告+对谈+青年学子晚餐交流会」等丰富板块,诚邀高校顶尖毕业生们来现场与顶尖学者、小红书技术团队大神欢聚畅谈!
顺便聊聊,在小红书,你将如何高速成长?
  • 有行业竞争力的薪酬

  • 优先落户等硬核福利

  • 专属个人成长计划

  • 丰富技术场景实践机会

  • 全球顶尖企业和高校实验室深度交流通路

  • ……
小红书携丰富资源,全面助力高校顶尖毕业生勇探技术高峰!
赶快扫描下方二维码,与小红书相约「宇宙中心」!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
混成数学入门竞赛,AMC8做对了什么?考前突击,20+攻略来袭!“奥林匹克英语大赛”“希望数学”属违规竞赛被取缔;全国13所中学发起成立“世界顶尖中学联盟”……一周资讯鲍里斯PK苏纳克竞选英国首相, 相互威逼利诱! 流程时间表公布. 加息预期被下调. 伦敦租金创新高今明2天, 快去蒙特利尔奥林匹克馆看短道速滑世界杯! 观赛攻略收好~10亿参数、多项SOTA,智源开源视觉基础模型EVA上面已经定调了!23年经济怎么干?教育部:奥林匹克英语大赛、希望数学等属违规竞赛,被依法取缔【Zoom活动】​上海美国中心特殊奥林匹克组织杰出经验分享:融合体育助力教育,12月15日,周四,19:00-20:30南半球的油菜花开啦他,1年9个月获清华博士学位,一作身份发27篇SCI,组队击败NASA打破“航天奥林匹克”欧美垄断低龄,竞赛,数学,天花板...那就只能是AMC8了!11岁发现数学新定理,13岁登日本数学会学术会议,学界大佬:他是「可敬的数学家」数学拔高必备!180套小学数学奥数例题精讲,含答案及详细解析!腾讯减持美团持股,美国登月火箭SLS发射升空 ,微软免费P图软件开始内测,首届奥林匹克电竞周明年举办,这就是今天的其它大新闻!Recommend somebody to do something是错误说法吗?数学奥赛狂砍10题!Meta发布全新定理证明器:AI即将接管数学?下面说的退休了无聊我能理解,所以需要在退休以前就先把路子趟出来。【宝藏竞赛】5-19岁都可以参加!River of Words竞赛,世界上最大的免费国际青年诗歌和艺术比赛!BPhO竞赛也能线上考!这项申英王炸竞赛,也有最佳参赛时机!抓住夏天的尾巴 - 古巴行1 Cayo Coco扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死奥林匹亚男子杀死养母,亚基马毒贩窝点搜出军火库“奥林匹克英语大赛”“希望数学”等被取缔我在中美两国当工人的不同感受傅雷的家书和他的遗言—傅雷夫妇56年祭日竞赛入门没头绪?超630万学生参加的袋鼠数学竞赛,炸出一堆华裔牛娃!“世界技能奥林匹克”,中国已夺8金时隔4年再夺金奖!北大斩获「编程奥林匹克」亚军,刷新队史最高排名教育部取缔“奥林匹克英语大赛”“希望数学”等违规竞赛AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA124亿注资!悉尼地铁西线奥林匹克公园站正式动工!知名开发商Meriton实力打造!奥林匹克新区最高楼全新展厅开放中!无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录【10-11月提升机会】钻石挑战赛备赛,顶尖美高批判阅读,Scholastic竞赛辅导,经济学...总有一门适合你!不要写suggest somebody to do something深度 | 当选共和党国会议员承认大量造假,“前所未有挑战国家安全”,仍将就职
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。