Redian新闻
>
AI研究甲骨文:五年的工作一天就做完了

AI研究甲骨文:五年的工作一天就做完了

其他

4月20日,是联合国定下的“中文日”。每年的这一天,联合国都会举办各种中文推广活动,让世界各地的人都能体验中文的魅力。


而中文的故事,还要从甲骨文说起。


甲骨文是现存最早的文字,最早的甲骨文可以追溯到春秋时代(约公元前1200年),它的发现将中国信史向上推进了约1000年,可以解读出大量珍贵信息。


然而,甲骨文研究是一项极度消耗人力的工作。


全世界目前已发现的殷商甲骨文不到5000字,真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”网站上,学者们会公布最新的甲骨文较重、缀合结果,依靠人力,一年只能更新几十组。甲骨文的整体研究工作往往被基础资料整理所困,推进困难。


首都师范大学甲骨文研究中心的莫伯峰教授团队,联合微软亚洲研究院武智融研究员,希望用人工智能找到甲骨文难题的另一个解法。


“较重”难题


1899年,金石学家王懿荣用龙骨熬药时,发现龙骨上刻着一些“符文”。因为对古文字颇有研究,他辨认这不是单纯的划痕,而是一种远古时期的文字,随即把它们收藏了起来。在殷墟甲骨被科学挖掘以前,经历了多年的私人挖掘、倒卖,因此流散到了很多地方。


从甲骨文首次被发现至今,出土的甲骨实物约有15万片。这些甲骨在不同的人手中流转,留下了多张拓本图像,这些对同一片甲骨的不同拓本被称为“重片”,是解读甲骨文的重要材料。


不同时期的拓片,外观差距很大|微软亚研院


甲骨重片数量繁多,质量参差不齐,整理和校对重片成了一项重要的基础工作,被称作“校重”。多年来,校重依靠学者靠肉眼和经验一一对照,费时费力。正如《甲骨文合集补编》前言中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”


到了今天,大多数拓本图像已经数字化,一个新想法应运而生:人工智能是不是可以为校重工作加速?


难题的另一种解法


微软亚洲研究院的武智融一直在寻找一个好课题。毕业后,他专注于研究视觉方面的自监督模型,了解到甲骨文研究的困境后,他感到豁然开朗:“甲骨文既是文字,又是图像,比一般的多模态研究更有趣。”


一开始,他想研究甲骨文释读,但之后武智融发现,想要释读甲骨文,就得先把较重工作做好。


在武智融看来,较重工作天然就适合机器来做。判断一张拓片是不是重复的,理论上需要把它和现存的重片都比对一遍。随着时间流逝,甲骨不仅会模糊,还会破裂成小块,一些不完整的拓片让较重工作更难。


B(局部)和 A(整片)是重片,C(局部)和A(整片)是重片,不能断定B和C就一定是重片。这种情况下,基于全局特征来计算两张拓片相似度的办法就不奏效了。


于是武智融决定从局部下手:如果两张拓片的多个“点与点”之间能够精准地对应上,便能断定它们很大程度上为重片。

尽管字迹模糊,但每个字的关键点仍然可以对应|微软亚研院


武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner。


自监督学习与监督学习的区别,在于模型在训练时是否需要人工标注的标签信息。所谓监督学习,是利用大量的标注数据来训练模型,使模型基于标记的输入和输出数据进行推理,而自监督学习是让模型自己来寻找规律进行分类。


武智融先尝试用监督学习的方式训练,但发现这种方式并不适用甲骨文校重。首先,重片的形状差异大,模型很快就被搞迷糊了,其次,监督学习需要人工标注大量的数据,而甲骨文的数据没有那么多。


于是武智融决定把这个工作交给模型自己去解决:人类更擅长给出基于整体的、甚至主观“微妙”的判断,如果是循着规律的密集排查,机器的效率远在人之上。


因为岁月的侵蚀和多次流转,甲骨的不同拓本可能会有粗细之差,为了让模型学会自己寻找重片,武智融先人工模拟出一些甲骨文可能发生的变化,例如变粗、变细、变模糊,为其加随机噪音和旋转。通过这种方式让模型明白,不管是粗是细,只要关键点位能一一对应,就是同一个字,这样一来,模型的识别能力就不受拓片的清晰度、对比度、噪音、旋转等外界因素的影响。


变粗变细变模糊,都是同一个字,对人类来说很简单的道理,机器却不一定学得会|微软亚研院


当然,基于局部匹配的方法能行得通还有很重要的一个原因:来自于同一块甲骨的重片,文字大小是不会变动的。武智融将每张拓片分割成能承载足够信息,又尽可能小的方格,哪怕重片是破碎的,也可以对应得上。


新模型的比对效率甚至高于他的预期。


将18万幅数字化拓本输入Diviner之后,模型发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果


给人类专家做助手


Diviner成果已经在对专家工作产生实质性的帮助。


Diviner新发现的重片,补齐了一些没有拓全的拓本,一些时间久远字迹模糊的拓本也被清晰的重片替代。过去的很多疑惑都被解决了,专家们如获至宝。



Diviner还可以直接帮助“缀合”。缀合的目的是将一些支离破碎的甲骨,拼接成一个更完整的甲骨,复原整片甲骨的信息,有助于完整性地解读史料。



人工对Diviner的结果再次验证,从反馈来看,Diviner的“查重”准确率能接近97%。这将鼓励更多机构甚至个人将其私藏的甲骨文拓本拿出比对,供学术界讨论研究。


很多团队在尝试用人工智能技术帮助甲骨文的研究、传播,他们有人做甲骨文翻译,也有人做“认识甲骨文”小程序,但还是那个老生常谈的问题,人机协作中,机器如何辅助好人类专家。


武智融举了个例子。


甲骨文最初的目的是记录占卜。占卜者将龟甲炙烤后,通过出现的裂纹的长短、粗细、隐现来判断吉凶、成败,并将占卜的内容和结果刻在卜兆的近处,即为卜辞。


武智融和莫伯峰教授交流时才知道,卜兆在拓片上是模糊不清的,判断卜兆信息的位置高度依赖专家经验。


人工智能能帮人类专家做数据、资料的恢复工作,但只有专家学者才知道“一是一横,二是两横,三是三横,四是四横,一横之差,看似相似度非常高,阐释出来的意义却全然不同”。


人工智能技术如何才能对甲骨文研究产生直接且具体的推动作用?随着Diviner项目的进程,他开始更好地理解这个议题。



Diviner还能有其他延伸用途吗?


“有一次,同事开玩笑说,也许未来这套算法可能用于指纹识别,对刑侦有帮助也不错。”武智融笑了笑说。


注:文章中用到的拓本来自四本甲骨著录书。①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》


作者:沈知涵

编辑:翻翻

封面图来源:东方ic


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生活成本持续上涨,致澳洲拥有多份工作者人数创新高!留学生感叹:现在工作一点都不好找,直到有在这里找到了……一日一诗:我没舍得采这些春天的耳朵 | 言一文:五只蚕豆耳朵提问 | 老公要去香港工作,我要辞去稳定工作一起去香港吗?《鬼谷八荒》终于做完了,制作人张三有话说,官宣开干《鬼谷2》英伟达、甲骨文联手投资的 AI 独角兽,如何抢跑 OpenAI?自然感染新冠免疫力究竟如何呢?中国手机伤心印度:五年卫冕,一朝输敌文字考古单飞营 | 这个暑假一起去学甲骨文温哥华90后高富帅吐槽前女友:五年生三子,老公常年不回家还包养UBC女学生,她越来越堕落李斌谈蔚来全系降价3万元;梅西将于14日亮相淘宝直播间;苹果市值逼近3万亿美元;甲骨文创始人身价超过巴菲特...苦难与依托网曝科大讯飞搞“绩效回溯”:员工工作一年,还得倒给公司钱!网传大厂科大讯飞开始“绩效回溯”:员工工作一年,还得倒给公司钱?内部人士回应来了!你们会选择安逸但是工资低的工作还是压力很大但是回报高的工作?瞭望|绝大部分从未整理刊布,“甲骨文最后的宝藏”面世!韩国崩了!?韩国地产完了,房东跑路!未来也完了?年轻人报复社会:不结婚、不生孩子工作一年,我重新理解了《重构》开源软件:甲骨文和苹果最爱南澳散记 (增订本) :第十六章:大学生的“胡闹日”甲骨文毕业生走红,自嘲“最冷专业”华为自研MetaERP替换原有甲骨文ERP产品博鳌大咖云集!林毅夫谈AI:未来每周或只工作一天;沈抖:百度要基于文心一言改一遍;吴晓求:将海南打造成“香港+佛罗里达”...印度目标:五年成为最大芯片生产国​最高法院:五年来依法从严惩处92名原中管干部 | 聚焦两会北大经济学研究院院长:未来每周或只工作一天,AI给人更多时间享受生活甲骨文推出新的 Java SE 通用订阅豪斯曼:《诗歌外编》: 第十五首:已经五年了,“到了尽头,”我说宾州新希望小城(New Hope),街头扫描OpenAI 劲敌 Cohere 完成C轮融资,英伟达、甲骨文、Salesforce 押注“我,211大学研究生,金融圈找工作一年,才明白求职内耗让我走了多少弯路……”在加拿大找工作一定要看,各省各行业周薪有多少?河南高校首创!“甲骨文广播体操”来了科技|甲骨文埃里森身价超盖茨,跻身世界第四大富豪玩是孩子童年时的工作,也可能成为孩子成年后的工作社招|Oracle甲骨文5月热招职位上新!世界500强,全球最大企业软件公司,15-25天年假,海归有优势!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。