北京语言大学信息科学学院院长
语言智能研究院院长
1994年,在本科毕业4年后,我重回哈尔滨工业大学(哈工大)读研,从本科的工程力学专业转为计算机科学与工程专业,进入自然语言处理领域。人生总有些事不那么符合逻辑,但它却真实地发生了。不擅长说、不擅长写、语言能力较弱的我,职业生涯却与语言结下不解之缘。2003年,我博士毕业4年后,做了距离语言更近的选择,进入北京语言大学当老师。我当时的想法是,利用自己在语言、语音领域的专业技能和经验,投身语言教育技术的研究和开发。之后的10多年,我主持研发出多种语言辅助学习软件,帮助留学生学习汉语,包括语音评判、汉字书写、作文评判、卡片汉语等。从2007年开始,我断断续续开发了多个语料库系统,这些语料库包括动态作文语料库检索系统和BCC语料库系统。目前,这两个语料库系统不间断地为用户免费提供了15年的在线服务。BCC语料库系统已经成为语言学研究必不可少的语料库工具之一。从2014年开始,我在教育技术方面没有再进行新的尝试,重新回到自然语言处理的研究方向,重点研究汉语的句法语义分析。直到2020年年底,我受学校征召开始研发国际中文智慧教学平台。2015年,我申请到了一项国家社科基金重点项目,题目为汉语语块研究及知识库建设。2015年,北京语言大学申请到了“北京高等学校高精尖创新中心建设计划”,成立了语言资源高精尖创新中心,在该中心经费的支持下,设立了“句法语义分析及其应用开发”的课题,我研究和开发的兴趣从教育技术彻底转到了句法语义分析。当时的基本想法是,深挖语言学中可以借用的理论和方法,结合大数据和深度学习方法,在汉语句法分析阶段淡化词的边界,探讨生成以语块为单位的句法结构;同时,借助句法分析结构和大规模语言知识资源,打通句法到语义的通道,完成深度语义分析的目标;试图在不进行语义标注的前提下,研发具有一般性的语义分析框架。在领域应用时,借助领域知识,通过符号计算,完成语义分析的应用落地。我坚持当时的初衷,一路走到现在。“自然语言结构计算”系列图书阶段性地总结了这些年来的工作,其目的有3个:一是为自己,梳理已有的工作,出版图书作为我们团队的工作手册,以此为起点,再启航、再前行;二是为同行,分享这些年来我的工作成果,或批判、或借鉴;三是为学生,作为新开设的“自然语言结构计算”课程的参考书,助力学校培养具有语言学素养的自然语言处理人才。其中,《自然语言结构计算——GPF 结构分析框架》介绍了一种以符号计算为总控的可编程框架。该框架在总结汉语句法语义分析工作的基础上,抽象出支持一般性语言结构计算的方法。该框架具有通用性和开放性的特点,可用于分析自然语言的语法结构、语义结构和语用结构,而不是仅仅服务于意合图的生成。《自然语言结构计算——意合图理论和技术》介绍了意合图这一语义表示体系、生成意合图的中间句法结构——组块依存结构,以及如何利用《自然语言结构计算——GPF 结构分析框架》中的计算框架生成意合图。《自然语言结构计算——BCC 语料库》介绍了BCC相关的工作,即如何从语言大数据中进行语言结构检索和知识挖掘,重点解析了BCC语料库检索技术、BCC在线语料库服务,以及如何利用BCC进行语言知识获取等。这些年,我在学校外面做学术交流,当别人知道我是来自北京语言大学的老师,他们会惯性地认为我是做语言学研究的学者,但是实际情况并非如此。我在北京语言大学工作的 20 多年,虽然没有做语言学本体相关的研究工作,但深受语言学的影响和启发。在北京语言大学,一个语言学家聚集的地方,经常有机会接触到不同方向的语言学学者。在学校,几乎每周都有语言学相关的报告、讲座。在不断地熏陶之下,我开始深入学习语言学研究的各个方向,并思考能否借鉴语言学的观点和方法来解决自然语言处理的问题,尝试做好语言学和计算机深入结合的工作。在北京语言大学,做讲座、做报告,经常遇到学生提问这样一个问题:语言学能否助力自然语言处理?我每次给学生的答案都是肯定的、毫不犹豫的,语言学是一定可以助力自然语言处理的。但是,语言学怎样助力自然语言处理?学术界一直在探索合适的方法和路径。从之前的统计与规则结合,到现在的深度学习与知识结合,尤其是当统计或深度学习遇到瓶颈的时候,这一直是热门话题。实际上,目前,自然语言处理并没有从博大精深的语言学中获得足够的科学理论和方法的支持。语言学是道,自然语言处理是术。道术不可分,从事两个领域研究的学者关注点不同。少量的学者跨越两边,何其幸运,我算是其中之一。在北京语言大学工作久了,外面的人都把我当作研究语言学的学者。这些年,人工智能(Artificial Intelligence,AI)、深度学习受到追捧,自然语言处理(Natural Language Processing,NLP)也随着深度学习算法不断优化,NLP吞入的数据量越来越大,发展速度越来越快,进入NLP这个领域的学者和开发人员也越来越多,但是语言学的声音却越来越少。我作为一个地道的工科男,身在北京语言大学,脱离“主流”,专心研究知识和符号计算,探索汉语语义的分析技术和方法,有失有得。我“得”的是可以沉下心,坚持做一件事。句法分析是在形式上研究语言的语法结构。不同语言学观点有不同的语法结构理论,哪种结构好,哪种结构不好,如果脱离句法分析的目标,那么将是没有意义的辩论。相比句法分析,语义分析是在内容或意义层面的研究。那么语义又是什么样子的呢?也就是说,怎样表示语义,这是首先要回答的问题。语义分析的目标在于解决应用场景问题,在这个目标的引导下,探索应用场景中最大投入产出比的语义分析方法。总结下来,这些年我努力的方向包括挖掘语言学助力自然语言理解的理论和方法;在深度学习最新进展的基础上,引入知识,让知识发挥主导作用;研发一个通用的符号计算框架,该框架既可以作为团队的研究平台,又期望它能够解决更多应用场景的问题。我研究这一领域的工作是从语义表示开始的。在自然语言实际应用场景中,无外乎考察两类对象:一类是实体类型的对象;另一类是事件类型的对象。其中,实体类型的对象内部涉及组成、属性,外部涉及实体充当的功能、实体间的关系、事件类型的对象涉及发生的时空信息、关联的实体对象、情感倾向、事件间的关系等。我提出采用意合图来表示这些内容,意合图是一种单根有向无环图。在意合图中,以事件为中心,实体的性质主要通过在事件中充当的角色来体现。生成意合图,我们采用了中间结构策略,即借助语法结构生成语义结构。具体来说,采用组块依存结构作为中间结构,建立句法语义接口,为语义分析提供结构信息。组块作为语言句法阶段的语言单元,既符合语言认知规律,也呈现了语言的浅层结构,突出了述谓结构在语言结构中的支配作用,便于从句法结构到语义结构的转化。我们采取基于数据驱动的方式生成组块依存图。为了构建训练语料,2018年,我们启动了建设组块依存图库工作,这项工作一直持续到现在。我们主要选取了新闻、专利文本、百科知识等领域的语料,且在语料中保留了篇章结构信息,并采取人机结合方法进行语料标注;采取了增量式策略,即采取了先粗后细、先简后繁,先易后难的策略。到目前为止,标注经历了3个阶段,标注规范每次都会做相应的迭代。这样的好处是随着工作的推进,我们对意合图的理解不断加深,在调整组块依存图时,不至于产生较大的问题,组块依存可以更方便地为生成意合图提供句法结构支持。语义分析需要语言知识,获取知识是非常重要的工作,研发目标不仅可以从语法大数据中获取句法知识,同时也可以获取语义知识,利用BCC语料库工具,从组块依存结构大数据中获取这些知识。为了得到组块依存大数据,我们采用了深度学习方法,在人工标注的多领域组块依存数据上训练组块依存分析模型,然后利用该模型对 1TB的数据进行组块依存结构分析,形成带有结构信息的组块依存结构大数据,将其作为知识抽取的数据源。BCC语料库工具支持脚本编程,为了方便使用,我们定义了一套适合知识挖掘和检索的语料库查询表达式,用一行查询表达式可以表示复杂检索需求。BCC语料库工具和组块依存结构大数据发挥了很大的作用,多位研究生和博士生利用这一工具和数据完成了毕业论文,同时他们在完成毕业论文的过程中也为意合图的研发贡献了数据。GPF框架是我历时8年不断打磨的成果。我最初的目标是开发一个符号计算系统,用来生成意合图。这个符号计算系统可以利用语言知识,实现从组块依存结构到意合结构的转换,实现句法语义的连接。在工作中,我越来越感受到这个符号计算系统本质上就是在做语言结构的计算,只不过这里的结构不仅是语言的语法结构,也可以是语义结构,还可以是语用结构,即语义分析落地应用生成的应用任务的结构,例如,文本结构化目标等。在计算和应用意义上,语言结构概念的一般化,用来描述自然语言在语法、语义和语用三个平面各类层级的语言处理对象,语言对象可大可小,小到词的结构,大到篇章的结构。在结构计算时,不失一般性,语言对象采用图结构,聚焦在语言单元、关系及属性上。这里的属性可以是单元的属性,也可以是关系的属性。语言对象采用了网格结构作为计算结构,用来封装语言单元、关系和属性,采用脚本编程,支持结构计算全过程。我将该语言结构计算框架称为 GPF。综上所述,我把过去多年的语义分析工作总结为3本图书,即3本以“自然语言结构计算”为核心的图书,这3本图书之间互有关联,又自成体系。语义分析没有终点,作为阶段性工作总结,这3本图书有一些不成熟、不完善的内容,我们会继续努力,不断推进工作,有了新成果就会持续修订相关内容。最后,这3本图书是我们团队工作的成果,包含每位实验室同学的贡献,尤其是在写书的过程中,多位同学持续努力、不畏艰辛,付出很多。其中,王贵荣、肖叶、邵田和李梦4位博士生为了写书,大家一起工作半年多。另外,王雨、张可芯、翟世权、田思雨以及其他在读或已经毕业的我的学生们也为书稿贡献很多,在此致以真诚的感谢。
关注下方视频号MLNLP,后台回复NLP,抽奖选出4名同学,包邮送出《自然语言结构计算——GPF计算框架》。