自然语言处理 · 机器学习 · 深度学习

教育

2022-08-27 09:08

点击蓝字

关注我们

/ 第三季 Season 3 /

锵锵脑科学

【第六集 Ep.6】

本期关键词

自然语言处理 · 机器学习 · 深度学习

本期嘉宾 · 王少楠博士

王少楠，目前在纽约大学博士后访问，中科院自动化所副研究员。

主要研究兴趣：1）大脑词汇表征和组合机制，利用神经编码的方式，试图建立语言计算模型和大脑之间的联系，用模型的工作机制来解释大脑的运行。2）借鉴人类快速学习、知识表征、组合泛化等方面的能力，构建更加智能的自然语言理解模型，使模型真正理解语言而不是拟合数据。3）构建实时高效的语言脑机接口，利用语言模型强大的语言生成能力，帮助解析神经影像中编码的连续的语言信息，目标是模型输入一段神经影像，可以输出对应的连贯的语言内容。

联系方式

Email：[email protected]

个人主页

wangshaonan.github.io

时间轴与内容概览

01'35

让机器理解人类语言

兴趣决定方向

我博士专业或者领域是自然语言处理，也就是让机器去理解语言。在自然语言处理这个领域里，自然语言就是指人的书面和语音这样形式的语言，特指人类的语言，比方说机器翻译、自动摘要和对话机器人这类，不包括动物或者其他形式的语言。最开始跟导师商量做什么课题的时候，他想要借鉴人处理语言的机制去构造更好的自然语言处理模型，当然不局限于某一个任务，就是用这样一个思路去做一些研究。当时在国内外也没有什么类似的研究，我只是听到这个题目之后觉得非常感兴趣，加上我本来对心理学也挺感兴趣的，就是兴趣驱动的选择了这样一个研究方向。

最开始探索的时候也是比较痛苦的，因为周围也没有什么人在做，也没有什么可以借鉴的工作。所以最开始前几年的大部分的时间就花在了同时了解心理学和神经科学关于语言研究的工作，再就是自己慢慢地摸索，也去北大和清华旁听了一些课，也会找相关的老师，慢慢地对这个方向有了一些认识，当然导师也给了很大帮助。

博士期间大部分的工作还是集中在模型上，借鉴心理学发现人语言的一些机制，做了一些文本表征的模型。毕业之后就留在研究所继续工作。那个时候就想做一些更深入的研究。加上当时深度学习已经非常火热了，在自然语言处理的各个应用里也有了非常大的一些提升。但是人们对于深度学习的一些机理或者前景也有一些担忧，因为它是靠数据量和计算量把模型的性能提升上来，那它是否真正地理解了语言或者是否真正的像人一样拥有了一些智能，这个是值得去探讨的一个问题。

那既然人是智能唯一的实现方式，如果可以深入地研究理解人是怎么理解语言这样一件事情，肯定会对我们建模是有帮助的。所以如果可以借鉴人的智能，或许可以帮助我们构建第三代的人工智能系统。在我毕业的时候，我隐隐约约感觉到这个方向可能大家做的人会越来越多，所以我就决定在这个方向继续做下去。

毕业之后的几年，我是把大部分精力放在心理学研究或者说人是怎么理解语言的事情上，用自然语言处理的工具去帮助我们更好地探究人是怎么理解语言的。后面是想去把这两方面融合起来，一方面用自然语言处理(Natural Language Processing, NLP)的工具帮助我们理解人处理语言的过程，另一方面也许可以把这些结论再返回来用到自然语言处理的模型上。我的研究的思路都是基于这样一个动机进行的。

✦

11’21

将语言文字变成向量

让机器自主学习语言

我之前做的是文本表征的工作。文本表征就是说把文字转换成向量或者矩阵，因为计算机只能识别数字。所以语言理解的第一步都是先把文本表示成计算机可以识别的形式。在深度学习的这种框架下，把词、句子，然后短语变成向量的形式就叫文本表征。在这些向量里边是编码了一些语义跟句法的信息的。举个例子来说，我们假设有一个向量用来表征狗，有一个向量用来表征猫，还有一个向量用来表征桌子。然后你会得到一个向量与向量之间的距离。我们会得到猫跟狗之间的距离会比猫跟桌子之间的距离要近，这就是一种语义信息的编码方式，就是部分的语义的维度就编码在向量里了。当我们把词变成了一个向量的形式之后，我们就想知道这个向量里到底编码了什么，我们就可以去测一下向量之间的距离，了解它可能编码的语义距离的信息。但是一个向量它有很多维度，每一个维度上是否有固定的信息，它是怎么把信息这样分布式编码到向量里的，这些也都不是很清楚。我当时做的工作一方面就是怎么让向量表示得更好，怎么把更多的语义信息或者跟人更类似的语义信息编码得更多一点；另一方面是去解释他现有的这个模型编码的向量里边到底编码了什么样的信息。

深度学习效果比较好的原因是它学到了比较有意义的表征向量，它在学习的时候有一个监督信号。比如说最常见的词向量的学习形式，我现在有从网上摘下来一些文本，就是故事、新闻之类的东西。其实语言的规律就在这些文本里有显示了，比如说猫跟狗，这两个词所在的上下文基本上会是一致的，比方“谁喜欢猫”或者“谁喜欢狗”，是有语言学规律的。在模型训练的时候就用上下文去预测某一个词，因为猫跟狗在的上下文都比较一致，所以当机器用上下文去预测目标词的时候，就会让猫跟狗的这两个词向量学得比较一致，因此它俩的距离才会比较近。反之，猫跟桌子的上下文通常不太一样，所以机器学出来就会比较远。通过这样的方式我们让机器学到一些比较有意义的词向量。但是这个规律也有一个问题，比方说它没有办法识别词的正负性，比方说高兴和伤心，这两个词出现的上下文情况也比较相似，导致它学的子向量也会比较相似。但是要把这两个子向量用到像情感分类这样的任务，比如分析一句话是积极的(Positive)还是消极的(Negative)，就分析不出来了，所以之后又有了各种改进的模型。

✦

21’11

像婴儿一样学习语言

机器用人类方式学习

因为模型学习的方式跟人不一样，也许我们可以类比小孩开始学习语言的环境，然后让模型去掌握这样一种自动学习、自主进化的能力，这也是现在研究比较多的一个方向。从小开始学习语言有一些特点，就是先接触的事物可能会比较简单，也就是从简单的语言符号开始学起，然后再去接触更困难的。现在我们会让模型先接触一些简单的文本，然后再接触一些比较复杂的东西，发现这样安排确实机器也会学得更好。

另一个比较有意思的是去构建一个三维的真实场景，这个场景是模拟小孩学习语言的环境，让机器像孩子一样从无到有的去在三维环境里学习语言。我前两天还聊到，有做自然语言处理领域的一个老师，给他的小孩从两个月开始就在脑袋上带一些摄像头，采集婴儿在学习语言过程中的真实环境。应该已经有几个小孩的数据了，时间跨度也有几年。他们现在就在分析这个数据，尝试找到怎么从三维的场景和语言符号里去构建模型，然后让这个模型自主地去学习语言这样一个过程，我觉得也是非常有意思的研究方向。

✦

27’43

名词动词形容词

语义组合研究

我一直对语义组合非常感兴趣。我们的语言除了每一个词有意义之外，那最主要的功能是我们可以把词整合起来去表达无穷的含义。所以语义跟整合一直是我非常关心的话题。

这也是为什么来到现在的实验室，他们做了很多关于语义整合(Compositionality)的工作，就是大脑是怎么理解语义整合这件事情的。他们用的是传统的实验心理学范式，给被试看一些实验刺激，这里用的是两个词的短语。比方说 Red Boat（红色船），先看一个这样的实验词集，然后再看一个前面可能是空屏，也可能是XYZ这种没有意义的符号，之后再去看一个Boat（船）或者是去看一个两个词没有办法组合的材料，比如Desk Boat（桌子船）。分别收集这几类不同条件(Condition)的脑磁数据，对比可以整合(Compose)的短语和不能整合短语之间的区别，去发现对应的脑区位置和出现时间。

因为我对语义整合特别感兴趣，我就去调研了相关研究领域，发现大部分工作是去看语义整合出现的时间，以及在什么脑区上出现。但是只了解这样一件事情对我们建模貌似帮助不大，所以我就一直想搞清楚机理到底是怎样的，就是人在整合不同类型的短语的时候，它使用的数学的形式是怎样的。比方说在组合形容词+名词短语或者动词+名词短语或者双名词短语的时候，它采用的数学模型是不是一样的？比方说一个形容词跟一个名词整合，比如还是 Red Boat，Boat 还是一样的，但加上 Red之后就把它的某一些属性改变了。

那这样看来，如果大脑表征Read Boat这个词义概念的话，神经元激活可以被近似认为它就是一个向量或者一个矩阵，然后每一个维度可能就是一些特点(Feature)。那 Red Boat整合的话，就相当于把Boat上面颜色(Colour)这个属性给突出出来，就变成了红色(Red)，然后其他的属性没有变化。那这样一种整合方式，是不是乘法的或者是怎样的一种方式？比如颜色维度上系数是1，然后乘一个数，当系数变成2，就反映了某一种特定的颜色。

但是在很多时候不是这种简单的属性的修改。如果还用Boat举例，我们说“开船”，那修改的是关于Boat的其他的一种属性信息。还有一些更复杂的，比方说名词和名词的整合，两个词整合之后，它就完全改变了之前词的含义。那这种整合跟之前提到的整合的数学机制肯定是不一样的，我就非常关心这种不同类型的词汇整合的时候大脑机制到底是怎样。那反过来到模型上，现在的模型也不去关心他们之间的关系是怎样，也没有针对不同的关系去构建模型。所以我觉得如果可以就是发现一些结论的话，可以帮助我们做更好的这种语义整合的模型也说不定。

✦

33’56

网络 + Summer School

学习资源推荐

我觉得如果想快速入手这个领域的话，可以去看斯坦福大学(Stanford University)和卡内基梅隆大学(Carnegie Mellon University)的公开课，我觉得讲得非常详细。我之前的背景是自动化，其实编程的背景也不是特别强，我觉得后来也是挣扎了很长时间才慢慢学会了。我觉得比较好的一种学习方式可能是你有一个目标或者一个实际的任务，然后去通过完成这样一件任务学习编程，而不是拿一本书，一条一条指令去学。我觉得这样一方面比较枯燥，另一方面学完也容易忘。但是如果有一个非常明确的目标的话，你会去想完成这个目标，然后在实现这个任务的过程中就慢慢地对事情越来越熟悉，而且它是基于兴趣的学习，所以可能会比较高效一点。

另外我还蛮推荐大家如果有时间的话去参加一下线上的暑期课程(Summer School)。它只有三个星期，但是每天的课程安排得还蛮紧的。如果心理学的背景对自然语言处理感兴趣的话可以参加深度学习(Deep Learning)的课程。因为它主要讲的就是现在用的最多的一些模型，比如说线性模型，RNNs模型和CNNs模型，最后还会涉及到Reinforcement Learning模型。这个课程除了介绍模型的原理以外，还会有分组的Projects，一边学一边做，所以感觉还蛮有意思。另一方面就是可能疫情大家都居家工作，也憋得比较久了，很难见到这么多人或者你的课题组就你自己在做，也许可以在这里找到可以聊天的人，所以就感觉这个Summer School还蛮融洽温馨的。

✦

39’00

来自老师的安利

有科研也有丰富的生活

平时生活除了科研以外，周一到周五晚上回去可能会看看书，然后周末的话因为现在在纽约就好玩的东西比较多，所以周末应该就跑出去玩去了。除非有特别着急的事情才会到实验室加班。周末有时候会去跑一个比较长距离的跑步，因为这边环境也比较好，会在河边或者是中央公园有专门的跑道，也会有一些组织可以加入。除了跑步以外，还会去骑车，因为也还是环境比较好，然后也是刚来这边，所以感觉汽车也是一个比较好的游览城市的一种方式。

这边还会有各种百老汇演出和各种Museum，很多免费的资源。学校有时候也会发一些免费的票去看Show，夏天的时候现在还喜欢上了去冲浪。所以就是基本上各种户外运动都会都都比较喜欢，都会在周末的时候进行。

✦