Redian新闻
>
将数学题转化成代码 谷歌这项研究让机器证明的正确率大幅提高

将数学题转化成代码 谷歌这项研究让机器证明的正确率大幅提高

科技新闻

研究者预估,如果达到 100% 的正确率水平,“我们肯定会创造出赢得国际数学奥林匹克金牌的 AI 智能体。”计算机被用来验证数学证明已经有一段时间了,但它们只有在使用专门设计的证明语言准备问题时才能做到这一点,而无法处理数学符号和数学家使用的书面文本的混合体。
如果把用自然语言编写的数学问题转换为正式代码,让计算机更容易解决它们,或许能够帮助构建能探索数学新发现的机器。
这个过程被称为形式化(formalisation),但仅仅一个证明就可能需要数年的工作,因此只有一小部分数学知识被形式化,然后由机器证明。
自动形式化(Autoformalization)指的是 自动从自然语言数学翻译成正式语言的任务 。一个成功的自动形式化工具在实践和哲学上的意义都是巨大的,它可以减少目前过度的形式化成本,并且从长远来看,它可以连接各种研究领域数学推理的自动化方面。
在最近的一项研究中,Google的 Yuhuai Wu 与其合作者 使用 OpenAI Codex 的神经网络进行自动形式化工作 。Codex 已经接受了来自网络的大量文本和编程数据的训练,程序员可以使用它来生成可靠的代码。

论文链接:https://arxiv.org/pdf/2205.12615.pdf
将 12500 个中学数学竞赛问题形式化
大型语言模型的一系列最新进展展示了模型理解形式化语言的潜力。然而,现有的成功仅限于在网络上存在大量语料库的形式化语言 (例如 Python)。相比之下,形式化的数学数据非常缺乏,最大的形式化数学语言库之一 Archive of Formal Proofs 只有 180mb 大小,这还不到大语言模型 Codex 训练数据的 0.18% 。
此外,与通用编程语言的情况不同,自然语言文档字符串是广泛可用的,自然语言和形式化数学语言之间几乎没有对齐的数据。因此,大型语言模型的成功是否能直接促进自动形式化的发展,仍是未知的。
鉴于证明语言与编程语言有相似之处,因此该团队决定看看 Codex 是否可以将包含 12500 个中学数学竞赛问题的库形式化。它能够将四分之一的问题转换为与形式证明求解程序 Isabelle 兼容的格式。
Wu 表示,许多不成功的转换是系统不理解某些数学概念的结果。“如果你用一个解释这个概念的例子来展示模型,那么模型就可以快速掌握它。”
这项工作探讨了大语言模型的自动形式化的前景,研究者发现大型语言模型已经在一个交互式定理证明器中具备相当好的形式化自然语言数学的能力。
下图 1 是一个完美的自动形式化示例。该模型不仅转换成了语法上正确的 Isabelle 代码,而且还能够掌握自然语言中的重要推理点。

为了测试这种自动形式化程序的效力,团队随后又将 Codex 应用于一组已经有人类形式化版本的问题,Codex 也为这些问题生成了自己的形式化版本。团队使用了另一个名为 MiniF2F 的 AI 来解决这两个版本的问题。
自动形式化的问题将 MiniF2F 的成功率从 29% 提高到了 35%,这表明 Codex 在问题形式化方面可以比人类做得更好。

值得注意的是,许多数学竞赛的陈述往往是这样一种形式:一个人被要求找到某个问题的答案,而不是证明一个给定的命题。然而形式化的数学陈述是以命题的形式,而不是以问题的形式。
为了把一个问题转换成一个命题,研究者在问题后面附上了“The Final Answer”:

用来进行自动形式化的 prompt 格式是:

AI 将与人类数学家竞争?
这是一项有趣的进展,但 Wu 表示 团队的工作只是一个概念证明 。“如果目标是训练一台媲美最顶级人类数学家的机器,那么自动形式化似乎是实现这个目标的关键道路。”
剑桥大学团队成员 Albert Jiang 表示,如果进一步提高成功率,AI 将能够与人类数学家竞争。“ 如果我们达到了 100% 的水平,我们肯定会创造出赢得国际数学奥林匹克金牌的 AI 智能体。 ”
团队近期的目标是改进自动形式化模型和自动化证明机器,但研究成果的未来影响将会更深远。Wu 表示,这些模型可以揭示人类目前未知的数学领域。
这种机器的推理能力也非常适合更广泛领域的验证任务。“你可以验证一个软件是否完全按照你的要求做,或者可以验证硬件芯片,因此它在金融交易算法和硬件设计中都会有所应用。”
利用机器探索数学是一个令人兴奋的发展,伦敦数学科学研究所的 Yang-Hui He 说,但真正的挑战是在大部分是用 LaTex 编写的数学研究中使用该模型。“我们只用 LaTex 是因为它打字顺畅,但它在某种意义上是一种自然语言,也有自己的规则。”
He 说,因为用户可以在 LaTeX 中定义自己的函数和符号,这些函数和符号可能只在一篇数学论文中使用,这对于仅在纯文本上训练过的神经网络来说可能很棘手。

戳这里提交新闻线索和高质量文章给我们。
来源: cnbeta
相关阅读
ICML 2024 | 无需LayerNorm简化Attention,精度无损推理效率大幅提升GPT-4尚未出现自我意识!这项研究用「上帝之点」解读,迈向AGI局限无法克服在你的人生中,你习惯当主角还是配角?多项研究表明:成为生活的主角可以提高你的幸福感,拥有较强自尊心的人或具有更强的免疫系统Peter Thiel 最新分享:AI 发展仍处于不确定阶段;如果英伟达有谷歌这样的垄断地位,那现在还是白菜价GitHub 改进代码推送逻辑,可靠性得到大幅提升华中科大今日Nature: 自组装单分子杂化策略大幅提高钙钛矿太阳能电池认证效率申请美本的正确组合方式!提高50%录取率?AI完败于人类医生!研究发现:大模型临床决策草率且不安全,最低正确率仅13%日本让机器人学开车,司机要失业了?每日一个英语笑话:老师出了一道数学题,学生的回答让你想不到Elon Musk将数千块人工智能芯片从特斯拉转而用于X答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思学不完了!CFA考试做题正确率达到75%以上才能过?AI应用率99%,这个行业大幅提升新质生产力ICML 2024 | 南开大学提出反向传播全新改进策略,不降速、大幅提升显存效率复旦大学:没钱标数据的有福了!利用合成数据就能大幅提升大模型归纳推理能力CMU&清华新作让LLM自己合成数据来学习,特定任务性能同样大幅提升数据显示:同意器官捐献后,意外死亡率大大提高保守党支持率大幅领先!加拿大移民的噩梦又要来了?不用辣椒水!交警执法的正确方式
原创公众号
小孩姐自创的游戏震惊到我了分享一个很装但有效的“要面子学习法”别忘了,AI也会污染环境你听了那么多职业建议,最有用的是什么?保存微信聊天记录?这个方法有点东西!终于明白微信的良苦用心了!你有遇到过大数据杀熟吗?Franklin Templeton,开始发放Full Time Associate面试offerData Analyst重量级证书!德勤官方:3小时拿证,零门槛赤裸真相!大批留学生放弃加拿大,回国!重要!这些美国大学「2025Fall」早申有调整!含杜克、UC系、CMU……上市奖励叫停?多地回应!已婚女性不能组装iPhone?富士康回应!Z世代老板,有什么?缺什么?爱什么?怕什么?丨来点财经范儿用最快速度完成早餐KPI,全靠它上分!天津人和山东人都愣住了快手同城有多少战地记者1.8万亿的快手,跌光1.6万亿低利率时代如何才能不被掠夺?中植死于关系网和内部腐败中国人消费力为何骤降?有一个原因你可能想不到第一次干这事儿,竟然还有点紧张!我和老公是拼婚,他却骂我是疯子,生了一个傻子!佩霞与情夫,将“反腐”推向了新高度!6亿身家董宇辉,局势不妙。币安研究院:下半年值得关注的六大主题燃炸!澳洲偏远大学斩下24枚奥运奖牌!一个大学超越多个国家,媲美斯坦福!背后原因,今天曝光了...看完或许不意外...曝拖欠数十名tradie工钱,澳华人老板资产遭冻结,公司进入清算程序!汪小菲情绪再失控!大闹餐厅!引诱未成年男生在教室发生性关系,发送大尺度视频!澳洲中学女老师再次被捕悉尼新地铁线今晨正式迎客!站台挤满通勤者,有人为搭首班列车一夜不眠
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。