邓力：转动语音深度学习飞轮的人 | 深度学习崛起十年

2022-05-27 10:05

邓力、俞栋、何晓冬......2012年，深度学习在计算机视觉领域爆发之前，他们已经推动了深度学习在语音领域的落地突破。

”

作者 | 陈鹭伊

编辑 | 岑峰

编者按：2012年，在这一年的 ImageNet 挑战赛上，深度神经网络 AlexNet 一骑绝尘，以错误率降低40%、远超第二名的成绩拿到了比赛的冠军。以此为标志，深度学习开始逐渐成为人工智能研究的主流技术，基于Hinton及众多先驱提出的深度学习理念框架推动了语音识别、图像识别、机器翻译、自然语言处理和机器人技术从“孤军奋战”走向协作，引发了人工智能大规模落地的浪潮。

一项突破性技术发展的背后，不仅需要长时间的积累和酝酿，更离不开少数远见者坚持不懈的持续推动。而在这一波深度学习崛起的浪潮中，有一批华人学者深度参与其中，成为推动深度学习与人工智能进步的重要力量。值此深度学习崛起十周年之际，雷峰网设立“深度学习崛起十年”系列，通过回顾深度学习的发展历程，以“十年十个故事”的方式，展现华人研究者们对深度学习的推动，致敬这一波深度学习浪潮中的中国元素。

本文是“深度学习崛起十年”系列的第一篇。

序幕：一条期盼已久的消息

2012年10月的一天，微软研究院（MSR）语音研究首席研究员邓力受邀，从美国西海岸的西雅图，横跨美国大陆，前往位于美国东海岸的巴尔的摩、语音和语言处理研究的殿堂CLSP做演讲。

邓力在雷峰网GAIR 2019大会现场

CLSP的全称是约翰霍普金斯大学的语言和语音处理中心（The Johns Hopkins University Center for Language and Speech Processing），由提出了统计语音识别框架的著名学者贾里尼克(Frederick Jelinek)于1992年创立。每年夏天，中心都会邀请世全球20-30名顶级的科学家和学术新星、学生到CLSP一起工作，并举办侧重于语音和语言工程的研讨会（Johns Hopkins Summer Workshop），多年来每届研讨会的研究成果对于大词汇量连续语音识别（LVCSR），自然语言处理（NLP）及对话等领域产生了广泛的影响，这也使得CLSP成为世界上语音和语言处理的中心之一。

邓力演讲的题目是New Waves of Innovation in Large-Scale Speech Technology Ignited by Deep Learning。就在等待登台演讲的时候，正在浏览邮件的邓力看到了一条由多伦多大学的Geoffrey Hinton亲自发给他的邮件：Hinton的团队在该周ImageNet 的ILSVRC挑战赛中以压倒性的优势获得第一，将图像识别错误率从26%降低到了16%，错误率降低了将近40%。Hinton 在邮件中特别提醒邓力“ … look at this huge margin!!!”

这也是邓力期盼已久的一条消息。

尽管当时不少人对深度学习持怀疑态度，但邓力对此深信不疑。在他看来，Hinton在ILSVRC挑战赛取得成功是一件自然而然的事：作为与Hinton在深度学习领域最早的合作者，邓力及其同事俞栋、Frank Seide等将深度学习成功应用于语音识别，并将错误率降低了30%以上。

这是你的胜利，也是我的胜利。

这是深度学习的胜利，也是神经网络的胜利！

2

深度学习的第一次成功，从语音开始

邓力对神经网络的“误会”消除于2008年。

邓力对神经网络并不陌生。他1977年考入中国科学技术大学生物系（778班），本科的专业是神经科学和生物物理学，真正接触人工神经网络是在威斯康星大学麦迪逊分校攻读电气工程方向的博士期间，邓力在语音方面的研究也是始于彼时。

在博士期间，邓力尝试创建人类听觉模拟和语音识别神经模型，然而进展并不顺利。不仅神经网络的理论还有待进一步完善，当时的计算机也无法提供足够的计算能力，这也使得邓力在神经网络方向上的研究举步维艰。

博士毕业后，邓力加入加拿大滑铁卢大学任教，期间仍在从事神经网络方面的研究。其中他与他的一名学生Khaled Hassanein (现任教于加拿大的McMaster大学)在1993年提出了一种增强神经网络记忆的新模型。这也是Khaled Hassanein 的博士论文题目，这一研究实现了一个可用于语音识别的完整系统，但性能仍无法超越隐马尔科夫模型。

邓力邀请了 Geoffrey Hinton作为这篇博士论文的外审审稿人。在读过论文后，Hinton告诉邓力，受各种条件限制，现阶段神经网络恐怕难以取得进一步的突破。这也使得邓力将精力从神经网络的研究转向贝叶斯统计方法和生成模型研究上。

但邓力仍然是神经网络圈子的一员。他是神经信息处理领域的顶级学术会议NIPS的常客，2008年12月的NIPS上，邓力与Hinton再度见面。

2008年NIPS的主会场设在温哥华，但大会的专项研讨会（Workshop）安排在了距温哥华一小时半车程的滑雪度假村Hilton Whistler Resort and Spa——这也是NIPS的惯例，该会议在2010年以前一直在滑雪胜地的Whistler举行。

邓力和他的同事何晓冬在这一年的NIPS上举办了一场语音语言研讨会（NIPS Workshop on Speech and Language: Learning-based Methods and Systems），并请来Hinton做报告。Hinton告诉邓力，自己开始用一种新的方法深度学习处理语音问题，而且取得了不错的结果。

这让邓力大为感到意外。在他的印象中，Hinton从未涉足语音方面的研究，而且过去神经网络少有明显高出其他方法的成功案例。两人约定事后再详细进行讨论。

在后续的邮件讨论中，Hinton又给邓力发来了一篇新论文的草稿，论文表明，在用三个小时的语音数据进行训练的神经网络达到了和邓力所采用的基于生成式五层动态贝叶斯网络的方法相媲美的水准。由于双方使用的语音数据的测试集不同，邓力对此仍持保留态度，他决定邀请Hinton到微软总部进行访问，以便可以在同样的数据集下比较哪一种方法更优。

邓力（左）与Geoffrey Hinton

2009年十一月，Hinton如约到来，他和邓力一起克服了种种困难，用MATLAB搭建了一个语音识别神经网络的原型。Hinton负责了大部分关于深度波尔兹曼预训练模型代码的编写，代码的简洁流畅让邓力叹为观止。当模型开始使用微软的语音数据进行训练时，邓力马上感到了不同：虽然比起SOTA还略有差距，但这足以让邓力意识到，深度学习的方法是有用的。经过详细的误差分析和基于以往研究经验的推理，他意识到即便只用简单的算法，只要用大量数据进行训练，即便不用波尔兹曼预训练模型也可能得到出色的结果。

围绕这一研究的相关成果，2009年邓力和Hinton以及微软的同事俞栋三人又在NIPS 上共同组织举办了一个深度学习在语音研究的应用的研讨会（2009 Workshop on Deep Learning for Speech Recognition and Related Applications）。

处理更多的数据需要搭建新的系统。Hinton告诉邓力，他需要花费至少一万美元去购买Nvidia的GPU来完善这一项目。邓力的老板Alex Acero听闻后劝说邓力不必花大价钱买GPU，去Fry's electronics store买通用显卡搭建系统会便宜一些，然后在满足了对神经网络的好奇心之后回收这些便宜的显卡。但Hinton认为便宜的硬件不仅发热量更大，而且以模型所需要的计算能力，购买通用显卡搭建系统可能会花费更多。最终，邓力用自己掌控的研究经费买了三块Hinton推荐的GPU着手大数据的语音识别实验，并在2010年再度邀请Hinton前来访问。

经过过去一年的宣传，“深度学习”的概念开始为更多人所知。而Hinton这第二次访问的顾问费也比去年翻了一番，涨到了2000美元/天。此前，Hinton的两位研究生Abdelrahman Mohamed 和 George Dahl也来到微软，推进这一研究。

George Dahl正是推进邓力小组深度学习项目的关键人物——尽管在后来的采访中，George Dahl笑称他不了解语音，他开始做语音相关研究的唯一原因是因为Hinton的其他学生“都在做视觉方面的研究”，但他在GPU方面的的丰富经验对于这个研究项目起到了巨大的推动作用。

这也是深度神经网络在工业界的大型语音识别上的革命性突破：在学习了大量数据后，尽管暂时抛弃了相对复杂的深度波尔兹曼预训练模型，Hinton的多层建模和邓力、俞栋提出的用senone建模结合、共同设计的语音原型性能依然超越了其他方法，包括邓力之前发明的基于五层动态贝叶斯网络的方法，在人工智能的历史上，这是过去其他方法都不曾达到的一个里程碑。

3

犹豫中的前行

尽管微软很早就开始斥巨资投入人工智能研究，并雇佣了一批当时顶尖的人工智能学家，但在神经网络和深度学习崛起并在其他领域开始取得成效的时候，这种历史积累反而成了让微软更进一步的阻碍，在微软高层、尤其是技术高层仍对神经网络与深度学习持怀疑态度。

2010年，邓力迎来了一位大老板：曾任卡内基梅隆大学计算机系系主任的Peter Lee来到微软，担任微软雷德蒙研究院（MSR Redmond）院长。随后，他全面负责微软美国境内研究项目的运营，直到2013年7月全面接手微软研究院。Peter Lee上任的第一件事就是对研究院的项目及开支进行审核，当他看到邓力项目组的开支时，他大吃一惊。

Peter Lee从80年代在卡内基梅隆大学任教时就认识Hinton。后来在纽约时报记者凯德·梅斯的一次采访中，Peter自己提到，和当时的主流学者一样，他认为Hinton的神经网络“非常荒谬”，邀请Hinton和他的学生、购买GPU的经费、NIPS研讨会的费用在他看来纯属浪费。但在他来到微软之前，这笔费用早已进入了执行阶段了。

Peter Lee的态度也影响到了Hinton与微软的合作。此前Hinton曾口头答应邓力，后面还会将他的另一名博士生Alex Krizhevsky（后来成为AlexNet论文第一作者。Alex Krizhevsky 和邓力至今保持良好关系，不仅Krizhevsky十年前险些到微软当他语音组的实习生，近年邓力在离开微软后还险些为 Citadel雇来了Krizhevsky）送来微软让邓力带领他实习，但后来Hinton改变了主意。Abdelrahman Mohamed在结束微软的实习后去往IBM，另一名从事深度学习在语音领域应用研究的学生Navdeep Jaitly则去往Google，微软和Hinton渐行渐远。

后来Hinton在2012年NIPS大会上举行竞拍选择他的新东家时，他事后告诉邓力，他在潜意识里已经将微软排除在外，这不是钱的问题（否则他也不会在4400万美元的出价上叫停），而是审核制度的问题。微软的审核制度和风格或许适合销售人员，但“绝不适合研究者。”

Hinton 让邓力将这个看法转送给当时任微软CEO的Steve Balmer。数月后，微软对员工的审核制度果然取消了 “stack ranking”。而邓力和Hinton合作的那篇近代语音识别历史上被引用最多、2012年12月发表的文章《Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups》，在2011年就已写好初稿。但Hinton建议邓力将其学生在Google和 IBM的相关研究也包含在这篇文章中，这样可以让两家公司的研究员们在之后写论文时主动引用这篇文章，增加文章的影响力。

事实证明了Hinton是对的。该论文不仅总结了深度神经网络对语音识别的影响，还阐述了如何将包括深度神经网络的方法在内的不同的机器学习方法整合起来为大规模的语音识别带来重大的进展。目前该文章的引用量已超过11000次。

另一方面，按凯德·梅斯的书中提到，尽管后来Peter Lee看到了邓力在使用深度学习在语音识别上取得的突破，但他仍认为这是“瞎猫碰到了死耗子”，猜测这一成功无法被复制到其他领域的研究中。后来在2012年7月，Peter Lee飞往犹他州Snowbird参加两年一度的CRA会议（该会议的特色是在会议期间举办的美国计算机系主任论坛，属于计算机系主任们的小圈子），会上Google的Jeff Dean受邀发表了关于深度学习的演讲。Peter从Snowbird返回后专程找了一趟邓力，希望邓力能为他解答为什么Jeff Dean会对深度学习如此“上头”。

邓力试图向Peter Lee解释Jeff Dean的DistBelief 论文及其内容，以及Google这个微软的主要竞争对手正在修建面向未来的基础设施。但Peter Lee打断了邓力，告知邓力根据NIPS的规定，在论文发表前不得对其进行谈论。

虽然邓力接下来继续和Peter Lee讨论深度学习技术的演变趋势，但Peter Lee仍然坚信语音识别是一回事，但图像识别又是另一回事，而Google就是一个大把撒币的败家子。但Peter Lee最后还是为邓力安排了一个专门会议，希望他能够向研究院资深研究者及公司高管讲述深度学习的进展。

会议安排在园区的另一栋大楼的大会议室，共有20余名资深研究者和高管参加了会议。邓力的演示并不顺利，当他开始讲解的时候，计算机视觉领域的资深研究者Paul Viola打断了他。“神经网络从未取得成功。”

Viola甚至走到了台前，把邓力笔记本电脑的投影连接线拔掉接到了自己的电脑上。屏幕上出现的是明斯基和佩珀编写、1969年的出版的《感知机》一书的封面，正是这本书对神经网络的批判导致了神经网络“失落的二十年”，这是任何一位神经网络研究者都不愿触及的“伤疤”。

邓力试图继续他的演讲，但仍被Paul Viola多次打断。直到参加了这个会议的另一位高管陆奇仗义直言，这是邓力的演讲，才让邓力得以完成自己的演讲。

陆奇是邓力在微软的少数支持者之一。他当时的职位是微软执行副总裁和Bing项目的负责人，也是在全球科技公司总部所任职位最高级别的大陆华人。与其他微软高管不同的是，在参加这个会议前，陆奇参加了在硅谷举办的年度黑客活动Foo Camp 2012，在活动中陆奇注意到了AI领域的华人新星吴恩达和他介绍的深度学习成为了活动的焦点，而吴恩达正是与Jeff Dean一同创建了Google Brain项目。

在Foo Camp后的几周时间里，陆奇专门抽出时间阅读了一系列关于深度学习的论文，当邓力向技术专家和高管介绍深度学习的时候，陆奇所询问的问题也颇为到位。就在会议之后数周，邓力收到了Hinton的电话，Hinton告知邓力百度愿意给他开出1200万美元的Offer，所以他不愿意再次到微软的邓力语音组继续做顾问。邓力将这一信息转发给陆奇，陆奇转而建议微软研究院加入Hinton的争夺，但微软对此仍在犹豫。

4

全面开花

相比起微软总部的谨慎，当深度学习浪潮来临之时，微软的中国同行们要积极得多。

从某种意义上来说，几乎每年都会返回中国参加学术交流的邓力算得上是中国深度学习应用于语音研究的布道者。2010年9月21日，邓力和俞栋受中科大信息科学技术学院李卫平院长邀请到中科大交流，科大讯飞也有不少人参加了这次交流会。俞栋分享了将神经网络应用于语音识别的最新成果，这也使得科大讯飞成为了除微软总部之外，首先详细了解这一研究并着手跟进研究的团队之一。

在结束中科大的交流后，邓力和俞栋才继续前往微软亚洲研究院进行交流。在中科大交流之后的几天后，俞栋首次在微软亚洲研究院声学组的一次内部讨论中提及使用深度神经网络和senones建模的相关研究，正是在这次内部讨论中，微软亚洲研究院声学组的高级研究员Frank Seide意识到了这一研究的价值，他随即加入该项目，与俞栋一起，两支团队精诚合作，推进该项目的研究。

2012年10月25日，微软大老板之一、负责全球技术的副总裁Richard Rashid在天津举行的“二十一世纪的计算”学术研讨会上当场演示用深度学习做语音识别，将英文识别后，用机器翻译成中文，再用语音合成的方法产生中文语音——也就是说，他在上面讲英文，观众可以直接听到和他音色很像的中文——整场演示非常成功，几乎没有错误。

这也引起了产业界的轰动，揭开了语音识别产业应用的新一页。纽约时报2012年11月份头版头条专门发布了一篇文章报道深度学习的进展，这篇文章的作者John Markoff亲自飞到西雅图的微软采访邓力，之前也采访了Hinton。

Richard Rashid在2012年“二十一世纪的计算”学术研讨会上的演讲

Richard Rashid向纽约时报表示，相比起之前的语音识别系统，新的深度学习技术使得错误率降低了30%以上。经历此事的微软也一改过去对深度学习的偏见，以更积极地态度参与到Hinton争夺战当中。

但此时微软和竞争者们注定要付出更高的成本。深度学习已全面开花，势不可挡。

2012年10月，在佛罗伦萨举办的ECCV上，Hinton和他的学生Alex Krizhevsky和Ilya Sutskever将ILSVRC的图像识别错误率从26%降低到了16%，错误率降低近40%。得知深度学习在计算机视觉领域的突破，NIPS大会组委会紧急为Hinton安排了一个Keynote演讲，AlexNet的论文也被NIPS 2012接收和发表。今年正是这篇论文发表的第10年，不出意外的话，这篇被引用超过10万次的论文将会在今年12月的NeurIPS上被授予大会的“时间检验奖”。

毫无疑问，这篇文章的分量已经远远超过了一个“时间检验奖”。甚至可以说，这篇文章加速了NIPS从神经科学向神经网络与机器学习过渡的学术氛围，使得更多机器学习的研究者关注并参与到NIPS中来。到2018年改名NeurIPS时，NIPS已被人工智能圈子公认为最具影响力的机器学习学术会议。

但相比起偏学术性的ILSVRC，进一步引爆产业界热情的是同月结束的另一场竞赛Merck Molecular Activity Challenge。该竞赛由医药巨头默克集团赞助，旨在设计软件以帮助寻找可能产生新药的分子。Hinton团队最后一刻决定参加比赛，不仅在设计软件时没有具体了解分子如何与其目标结合，更是在较小的数据集下超越了其他方法，获得了比赛的冠军。

竞赛的主办方Kaggle 的首席执行官兼创始人 Anthony Goldbloom 的评价是：“这是一个非常惊人的结果，因为这是深度学习第一次获胜，而且更重要的是，它在一个预期不会获胜的数据集上获胜（因为神经网络通常只在非常大的网络上表现良好）。”

也正是在这个时候，百度为Hinton开出了1200万美元的Offer，希望Hinton为百度效力。

Hinton意识到百度及其竞争对手更有可能斥巨资收购一家公司，于是在征询了百度和律师的意见后，他创建了一家名为 DNNresearch的公司，并在NIPS 2012期间安排了一个竞拍会，价高者得。

参加竞拍会的有四家公司：Google、百度、微软和Deepmind，邓力间接代表微软参与了对DNNresearch的竞标。多轮出价后，Hinton最终在4400万美元的价格叫停了竞拍，Google成为了赢家。

竞标结束后，邓力登上了飞往北京的航班。邓力的邻座是百度的余凯，余凯于2012年4月加入百度，领导新成立的百度多媒体部。余凯也是NIPS华人圈子中的活跃者，早在2008年就在NIPS上发表过深度学习的论文（Deep Learning with Kernel Regularization for Visual Recognition）。2009年邓力与Hinton在NIPS举办研讨会研讨会时，当时就是邓力亲自驾车，带着余凯和其他两位研究者从温哥华前往Whistler的分会场。

和邓力一样，余凯也代表百度参与了对Hinton的竞标。在飞机上，两人花了几个小时来讨论深度学习的话题。由于Hinton的竞拍是保密的，双方都不约而同避开了与竞拍相关的话题；但或许也正因为这种刻意的回避，两人都隐约猜到了对方的隐藏身份，他们意识到，新的竞争即将到来。

5

走出语音识别的围墙

余凯后来在接受外媒采访时承认，在竞拍结束后，他猜到Hinton可能会加入Google或者某一家美国公司，因为Hinton背部受伤无法搭乘飞机，他不大可能到中国旅行。虽然没有获得竞拍的成功，但他的目的已达到：通过这场竞拍，百度的智囊团已经意识到深度学习在未来几年的重要性，也将会在深度学习上投入更多资源。

对于邓力来说也是同样的道理。尽管对深度学习充满信心，在之前的项目中，他不得不做好两手准备，避免投入过多的资源，以免万一无法取得预想的成果压力太大。在微软参加竞拍后，他总算可以放开手脚做研究了。

邓力此前和Hinton的合作项目中公司内部的主要合作者是俞栋。俞栋在国内读完硕士后留学美国，分别在印第安纳大学及美国爱达荷大学获得计算机硕士和博士学位。他在2002年进入微软研究院语音和对话组，提出了以senones为最小建模单元直接建模的方法，和邓力一起为语音识别做出了开创性的研究。2009年NIPS上邓力和Hinton合办的那场Workshop，俞栋也是组织者之一。

就在参加与Hinton竞拍之前，邓力和俞栋开始着手做了一项NIPS的相关工作：当时虽然NIPS上发表的神经网络的内容不多，但已经呈现出明显的增长趋势。邓力和俞栋便一起把从2008年-2011年NIPS上关于神经网络与深度学习相关的论文以及在语音、计算机视觉、机器翻译等方向的应用汇总起来并进行分析写了一本书，书名就叫做《Deep Learning — Methods and Applications》（中译名《深度学习：方法及应用》，2016年3月机械工业出版社出版）

关于这本书的编写还有一个小插曲。当时这本书交到出版社，出版社找的编审是深度学习三巨头之一的Yoshua Bengio，Bengio看到这本书后不仅“搭便车”把这本书的时间跨度拉长，还加上了20页左右的评语（大约占到这本书的1/10），畅谈自己对深度学习研究的理解及成果。

他还建议邓力，与其面面俱到，不如攻其一点，将深度学习在语音识别的方法和成果进行更深入的描写。邓力和俞栋商量后回复出版社：这个提议很有道理，我们会另外再出一本这样的书。后来基于深度学习的语音识别技术发展起来，两人又另外编写了一本《Automatic Speech Recognition: A Deep Learning Approach》（中译名《解析深度学习：语音识别实践》，2016年电子工业出版社出版），此时邓力正在筹建和管理微软深度学习技术中心（DLTC），俞栋完成了这本书的大部分编写。

而邓力的另一位重要合作者何晓冬也在这个时候加入到对深度学习的研究，在自然语言理解方面开启了跟邓力的合作。何晓东本科毕业于清华大学，后来留学美国，于密苏里大学哥伦比亚分校获得博士学位，读博期间，2001-2003年还在从贝尔实验室分离出来的Avaya实验室连续做了3年暑期实习生。何晓冬的实习导师有一次去雷德蒙的微软做讲座，微软向他要人，他便向微软推荐了何晓冬。邓力参与了何晓冬的面试，感受到微软浓厚的技术氛围和西雅图舒适可人的夏季，何晓冬接受了微软的橄榄枝。

邓力与何晓冬

2012年暑期Yoshua Bengio推荐其博士生Gregoire Mesnil来微软实习，何晓冬和邓力是Gregoire的实习导师，研究的课题就是基于深度学习的口语理解。2013年春季，何晓冬及其合作者进一步提出并实现了深度结构化语义模型DSSM（Deep Structured Semantic Models），将多样化的自然语言所表达的含义表示成为一个多维度连续语义空间中的向量。时至今日，几乎所有做搜索推荐场景的大厂仍在使用DSSM及其衍生模型。

2014年，微软迎来重大人事调整，Satya Nadella接替Steve Ballmer担任微软CEO，另一位华人高管沈向洋也从副总裁升职为全球执行副总裁，负责研究院的管理。对研究院充满期望的沈向洋成立了一个新的部门MSR-T（MSR Technology），专注于对产业有直接影响的技术的研究。MSR-T成立之后，由邓力牵头，何晓冬、高剑峰等一批对深度学习充满热情的研究者从各个研究组出来，在MSR-T下成立了深度学习技术中心（DLTC）。

DLTC 成立后，邓力也将深度学习从语音研究拓展到其他领域，带领日益扩展的团队在深度学习的应用拓展方面做出了不少成果。代表性的成果包括包括互联网搜索问答、电子邮件及企业文档搜索、市场销售数据的深度学习解析与商业应用等。

除了公司给的一些项目，DLTC还做了很多自行探索的新研究，如多模态深度学习。当时微软的视觉组在2014年做了一个数据库叫MSCOCO，围绕MSCOCO数据集，一些大学和研究所开展了“看图说话”的研究，即用一句话来描述一张图片。这也是多模态研究的起点。

围绕“看图说话”，何晓冬和他的同事们组织了一个虚拟研究小组，当时横跨了微软MSR Redmond 四个部门，一同来参与到了这个问题的研究中。到了2015年，Yann Lecun在CVPR上举办了一场深度视觉研讨会（DeepVision Workshop），何晓冬受邀请在讨论会上作报告，介绍了他们提出的语言-视觉深度多模态语义模型（DMSM），DMSM是DSSM的升级版本，可以将图像和文字都表示成为同一个跨模态语义空间内的向量，并通过匹配计算生成最符合图像内容的文字描述。此后，何晓冬及同事又将知识融入了多模态模型中，加速了多模态技术的实用化。

由于对自然语言理解和语言与视觉多模态信息处理的贡献，2018年，何晓冬当选为IEEE Fellow。

这一时期，邓力的研究方向也转向解决实际问题的解析性和不确定性问题，通过将深度学习与不同的机器学习方法进行整合，从而让人工智能做出可解释的最优决策。

2017年5月，邓力离开微软，出任对冲基金公司Citadel 首席人工智能官，将深度学习的应用场景扩展到金融领域。而就在本月初，邓力再度担任量化投资管理公司Vatic Investments（梵蒂冈投资）的首席人工智能官兼机器学习全球负责人，邓力将深度学习应用于其他领域的探索仍在继续。

不知这一次的旅程，能否会带给我们新的故事？

6

后记：另一个时间检验奖

2021年6月，ICASSP大会上颁发了 2020 年度IEEE信号处理协会（IEEE SPS）最佳论文奖（该奖从过去6年巴黎发表的论文选出，相当于时间检验奖），邓力、何晓冬、俞栋以及Yoshua Bengio等人获奖。这一工作最早发端于2012年夏季的那个关于深度口语理解的实习项目，之后又有新的合作者加以充实。当时何晓冬曾感慨于深度学习的日新月异，这个工作开始之时，这些合作者中只有一位IEEE Fellow，而去年获奖的时候已经有了7位Fellow加一个图灵奖了。

2020年度IEEE SPS最佳论文奖的11位作者

而当时全世界会训练RNN模型的专家“可以一双手就可以数出来”的深度学习社区，如今已成为人工智能领域最茁壮的一个分支。

十年如一梦，光阴似箭。

正如茨威格在《人类群星闪耀时》所言，某些具有世界历史意义的时刻一旦发生，就会决定几十年甚至几百年的历史进程。“就像避雷针的尖端集中了整个大气层的电流一样，那些数不胜数的事件也都往往挤在这最短的时间内发生。”

正如我们熟悉的，让一个静止的飞轮转动起来必须先施加很大的力量，但一旦飞轮转动起来，便难以让它停下来。深度学习的历史也是如此，当第一个人去转动飞轮，需要耗费比后来者更多的力气，但只要你坚持不懈去推动飞轮，当飞轮开始转动，后面所有人都会从中获益。

做时间的朋友，时间终将说明一切。

如果你有学术专家的故事愿意分享，欢迎联系：Fiona190913。

注：本文部分内容素材来自于纽约时报记者凯德·梅斯(Cade Metz)的《天才制造者》（“Genius Makers”）一书，凯德·梅斯长期关注人工智能、无人驾驶汽车、机器人、虚拟现实等新兴领域，他也是《连线》杂志的资深撰稿人。在《天才制造者》一书中，凯德·梅斯用8年时间里采访了包括本文提及的多位当事人在内的400人，并和我们分享了深度学习崛起以及科技巨头围绕这一新兴技术“扩军备战”的精彩故事。

END