AI研究甲骨文：五年的工作一天就做完了

2023-04-20 15:04

4月20日，是联合国定下的“中文日”。每年的这一天，联合国都会举办各种中文推广活动，让世界各地的人都能体验中文的魅力。

而中文的故事，还要从甲骨文说起。

甲骨文是现存最早的文字，最早的甲骨文可以追溯到春秋时代（约公元前1200年），它的发现将中国信史向上推进了约1000年，可以解读出大量珍贵信息。

然而，甲骨文研究是一项极度消耗人力的工作。

全世界目前已发现的殷商甲骨文不到5000字，真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”网站上，学者们会公布最新的甲骨文较重、缀合结果，依靠人力，一年只能更新几十组。甲骨文的整体研究工作往往被基础资料整理所困，推进困难。

首都师范大学甲骨文研究中心的莫伯峰教授团队，联合微软亚洲研究院武智融研究员，希望用人工智能找到甲骨文难题的另一个解法。

“较重”难题

1899年，金石学家王懿荣用龙骨熬药时，发现龙骨上刻着一些“符文”。因为对古文字颇有研究，他辨认这不是单纯的划痕，而是一种远古时期的文字，随即把它们收藏了起来。在殷墟甲骨被科学挖掘以前，经历了多年的私人挖掘、倒卖，因此流散到了很多地方。

从甲骨文首次被发现至今，出土的甲骨实物约有15万片。这些甲骨在不同的人手中流转，留下了多张拓本图像，这些对同一片甲骨的不同拓本被称为“重片”，是解读甲骨文的重要材料。

不同时期的拓片，外观差距很大｜微软亚研院

甲骨重片数量繁多，质量参差不齐，整理和校对重片成了一项重要的基础工作，被称作“校重”。多年来，校重依靠学者靠肉眼和经验一一对照，费时费力。正如《甲骨文合集补编》前言中所述：“这种对重、选片的工作，其烦琐、费工是局外人难以想象的。”

到了今天，大多数拓本图像已经数字化，一个新想法应运而生：人工智能是不是可以为校重工作加速？

难题的另一种解法

微软亚洲研究院的武智融一直在寻找一个好课题。毕业后，他专注于研究视觉方面的自监督模型，了解到甲骨文研究的困境后，他感到豁然开朗：“甲骨文既是文字，又是图像，比一般的多模态研究更有趣。”

一开始，他想研究甲骨文释读，但之后武智融发现，想要释读甲骨文，就得先把较重工作做好。

在武智融看来，较重工作天然就适合机器来做。判断一张拓片是不是重复的，理论上需要把它和现存的重片都比对一遍。随着时间流逝，甲骨不仅会模糊，还会破裂成小块，一些不完整的拓片让较重工作更难。

B（局部）和 A（整片）是重片，C（局部）和A（整片）是重片，不能断定B和C就一定是重片。这种情况下，基于全局特征来计算两张拓片相似度的办法就不奏效了。

于是武智融决定从局部下手：如果两张拓片的多个“点与点”之间能够精准地对应上，便能断定它们很大程度上为重片。

尽管字迹模糊，但每个字的关键点仍然可以对应｜微软亚研院

武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner。

自监督学习与监督学习的区别，在于模型在训练时是否需要人工标注的标签信息。所谓监督学习，是利用大量的标注数据来训练模型，使模型基于标记的输入和输出数据进行推理，而自监督学习是让模型自己来寻找规律进行分类。

武智融先尝试用监督学习的方式训练，但发现这种方式并不适用甲骨文校重。首先，重片的形状差异大，模型很快就被搞迷糊了，其次，监督学习需要人工标注大量的数据，而甲骨文的数据没有那么多。

于是武智融决定把这个工作交给模型自己去解决：人类更擅长给出基于整体的、甚至主观“微妙”的判断，如果是循着规律的密集排查，机器的效率远在人之上。

因为岁月的侵蚀和多次流转，甲骨的不同拓本可能会有粗细之差，为了让模型学会自己寻找重片，武智融先人工模拟出一些甲骨文可能发生的变化，例如变粗、变细、变模糊，为其加随机噪音和旋转。通过这种方式让模型明白，不管是粗是细，只要关键点位能一一对应，就是同一个字，这样一来，模型的识别能力就不受拓片的清晰度、对比度、噪音、旋转等外界因素的影响。