Yoshua Bengio:我的一生
文 | 智商掉了一地
2018 年图灵奖获得者、AI 先驱、深度学习三巨头之一、对抗生成网络 GAN、标志性的银灰卷发和浓
眉,如果还没猜到的话,当你看到这个封面,一定就会意识到自己在学习的路上,已经或间接或直接地拜读过大佬的著作了。
看到花书的封面,和前面的关键词,也许你会意识到,他就是——Yoshua Bengio。
从下面这个记录可以看出,他的著作在谷歌学术上的引用量也是一骑绝尘。
就在这两天的 NeurIPS 2022 New in ML Workshop 上,Yoshua Bengio 做了一个 Live Talk,介绍了自己从本科毕业开始,一直到现在的人生之路。
链接:https://nehzux.github.io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022.pdf
接下来,就是Bengio在大会上亲口讲述“自己一生”的故事。
从最初本科毕业时的“广度优先搜索”,了解到 Hinton 的连接主义, 到探索人脑、初代语言模型、注意力机制等等,以及度过人工智能寒冬,再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System-2、因果推断、元学习、模块化等重要且新颖的领域。Yoshua Bengio 回顾了自己的科研生涯,他说“Staying Humble”。
一开始,Yoshua 讲述了“他是如何爱上一个研究方向”。
1985 - 1986 年,他刚读完本科,思索自己下一步要做什么,阅读了大量不同领域的论文,将视线聚焦于神经网络研究,尤其是 Geoff Hinton 和 David Rumelhart 等其他早期连接主义者的论文。
1986 - 1988 年,Yoshua 进一步阅读玻尔兹曼机,实现音素分类,完成了关于语音识别的玻尔兹曼机的硕士论文,而后当了解到反向传播时,对它感到兴奋,并开始使用它,在之后参加了 1988 年连接主义的暑期学校,遇到了许多其他充满热情的研究生和研究人员们。
1988-1991 年,Yoshua 完成了关于神经网络(RNNs 和 ConvNets)和 HMM 混合的博士论文。
随后,Yoshua 阐述了自己的工作中对于神经网络与 AI 的理解。从一个令人兴奋的先验知识出发,他指出,通过学习,智能(机器、人类或动物)的产生是有一些原则的,这些原则非常简单,可以被简洁地描述出来,类似于物理定律,也就是说,我们的智能不只是一堆技巧和知识的结果,而是获取知识的一般机制。
他还辨析了传统 AI 和机器学习的要点,提到了人工智能的机器学习方法:
经典的 AI 一般是基于规则、基于符号的:其知识由人类提供,但直觉知识是不可传播的,机器只做推理工作,没有很强的学习和适应能力,对不确定性的处理能力不足。
而机器学习则试图解决这些问题:在很大程度上取得了成功,但更高层次的(有意识的)认知尚未实现。
而后 Yoshua 从维度诅咒和分布式表示(指数级优势)这两个细节出发,强调了促使 ML 向 AI 转变的五个关键因素:
海量&海量的数据;
非常灵活的模型;
足够的算力;
计算效率推断;
强大的先验知识,可以打破“维度诅咒”,实现对新情况的强泛化。
他还提到了脑启发(Brain-inspired),以及如下特性:
大量简单自适应计算单元的协同作用;
关注分布式表示(如单词表示);
视智能为结合的产物(近似优化器、初始架构/参数化);
端到端学习
长期依赖和梯度下降
紧接着,Yoshua 回顾了机器学习 101 课程的要点:
函数族;
可调参数;
从未知数据中抽样的例子产生分布;
对经过训练的函数所产生的误差的度量;
近似最小化算法搜索最佳参数选择,迭代减少平均训练误差
又引出了他们自己 1994 年的工作 "Learning Long-Term Dependencies with Gradient Descent is Difficult" ,并强调了他的经验:负面结果可能非常重要,它教会了我们一些东西,推动了许多下游研究,比如 2014 年关于自注意力机制的工作。
接下来他展开介绍了这项工作:
如何存储 1 bit?在某些维度上有多个引力盆地的动力学
如果动力系统在某些维度上有多个吸引域,则状态的某些子空间可以存储 1 bit 或多个 bit 信息。
在有界噪声存在的情况下稳健地存储 1 bit:
光谱半径 > 1,噪声可以踢出吸引子的状态(不稳定);
而当半径 < 1时就不是这样了(收缩→稳定)。
可靠地存储→消失的梯度
可靠地存储比特信息需要谱半径 < 1
谱半径 < 1的 T 个矩阵的乘积是一个矩阵,其谱半径在 T 上以指数速度收敛于 0。
如果 Jacobian 矩阵的谱半径 < 1 →传播梯度消失
为什么它会损害基于梯度的学习?
与短期依赖关系相比,长期依赖关系得到的权重是指数级小的(以 T 为单位)。
当谱半径 < 1时,时间差越长,谱半径越小。
深度学习并不像其他机器学习方法:
没有中间表示(线性)
或固定的(通常是非常高维的)中间表示(支持向量机、内核机)
那么什么是好的表征形式呢?——使其他或下游任务更容易。
语言模型 LM
于是 Yoshua 又回顾了他们 2003 年的经典工作《A Neural Probabilistic Language Model》,这是首次用神经网络来解决语言模型的问题,也为后来深度学习在解决语言模型问题甚至很多别的 NLP 问题时,奠定了坚实的基础(比如之后 word2vec 的提出)。
每个词由一个分布式连续值代码向量表示=嵌入;
跨n-gram(单词元组)共享;
泛化到语义上与训练序列相似的单词序列
为什么要设置多层(multiple layer)?——世界是可构成的
具有不断增加的抽象级别的表示层次;
每个阶段都是一种可训练的特征变换。
图像识别:像素→边缘→文本→主题→零件→物体;
文本:文字→单词→词组→从句→句子→故事;
语音:样本→谱带→声音→……→电话→音素→单。词
随着深度学习的不断发展,不止 NLP 领域,语音和图像也迈出了重要一步:
▲ImageNet 在 2012 年取得突破
但其实 1996-2012 年也是神经网络的寒冬:
AI 研究失去了达到人类智能水平的雄心
关注“更简单”(更容易分析)的机器学习
很难说服研究生进行神经网络的研究
这需要坚持下去,但也要处理一些棘手的问题:
遵循直觉
但尝试通过实验或数学方法验证
理清思路以澄清问题,提出“为什么”问题,试着去理解
支持小组的重要性(CIFAR计划)
自 2010 年以来,Yoshua 关于生成式深度学习的论文,尤其是和 Ian Goodfellow 共同研究的生成性对抗网络(GAN),这篇经典之作更是引发了计算机视觉和图形学领域的深刻革命。
GAN 以其优越的性能,在短短两年时间里,迅速成为人工智能的一大研究热点,也将多个数据集的结果刷至新高。
Attention 机制的“革命”
对一个输入序列或图像,通过设置权重或每个输入位置的概率,正如 MLP 中所产生的那样,运用到每一个位置。Attention 在在翻译、语音、图像、视频和存储中的应用非常广泛,也具有以下的特点/优点:
一次只关注一个或几个元素;
根据具体情况,了解该让哪参与进来;
能对无序set操作;
是 NLP 中的 SOTA,为 Transformer 的提出奠定基础;
在 RNN 中绕过学习长期依赖的问题!!
强化学习
深度强化学习在 2016 年初露头角,取得巨大突破:
AlphaGo 以 4-1 击败世界冠军李世石;
人工智能和围棋专家没有预料到;
将深度学习与强化学习相结合。
深度学习的生物学突破
除了在计算机领域的成就以外,深度学习也在生物学领域取得重要突破,英国《Nature》杂志在 2021 年发表了一项结构生物学最新研究,人工智能公司 DeepMind 的神经网络 Alphafold 2 ,利用注意力图神经网络,预测的蛋白质结构能达到原子水平的准确度,这也为生命科学领域带来革命性影响。
保持谦逊
最好别想奖项、奖品和认可:这些都是危险的干扰!
自负会使我们盲目,使我们过度自信,是科学发现的敌人
损害我们灵活思考的能力,质疑我们认为理所当然的东西,倾听别人不同意我们的观点的能力
我多次改变主意:2005 年有监督 vs 无监督,2022 年频率论 vs 贝叶斯。
学习更高层次的抽象
(Bengio & LeCun 2007)
深度学习的最大回报是允许学习更高层次的抽象。
更高层次的抽象:将解释变量和它们的因果机制分离开,这将使得更容易的泛化和转移到新的任务上去。
如何发现好的解耦表征
如何发现抽象?
什么是好的表现形式?(Bengio et al 2013)
需要线索(=归纳偏差)来帮助理清潜在因素及其依赖性,例如:
空间和时间尺度
要素之间的依赖关系简单稀疏(意识优先)
因果/机制独立性(可控变量=干预)
多个时空尺度(粗略的高层因素解释了较低层的细节)
绕过维度的诅咒
我们需要在机器学习模型中构建组合性,就像人类语言利用组合性为复杂的思想赋予表征和意义一样。
利用组合性:在指代能力上获得指数级的增长;
分布式表示/嵌入:特征学习;
当前的深度架构:多层次的特征学习;
系统 2 深度学习:一次编写几个概念;
先验假设(Priori):组合性有助于有效地描述我们周围的世界。
Yoshua 之前也研究过一段时间的因果,这里他也发表了与此相关的一些看法。
我们需要了解这些问题:
正确的表述是什么?解释数据的因果变量
如何发现它们(作为观测数据的函数)?
如何发现他们的因果关系、因果图?
行动如何与因果干预相对应?
原始感官数据如何与高层因果变量相关?高层因果变量如何转化为低层行为和局部观察?
需要额外的偏见:因果关系是关于分布的变化
当前机器学习的缺失
超越训练分布的理解与泛化;
学习理论只处理同一分布内的泛化;
模型学习但不能很好地泛化(或在适应时具有高样本复杂性)修改后的分布、非平稳性等。
知识重用性差、模块化差
要超越训练分布的泛化
由于性能不佳的 OOD,目前工业强度的机器学习存在鲁棒性问题;
如果没有独立同分布(iid),需要替代假设,否则没有理由期望泛化;
分布如何变化?
人类做得更好!
来自大脑的归纳偏见?
人类如何重用知识?
系统泛化
根据之前的一些工作,将这种能力总结如下:
学过语言学;
动态重组现有概念;
即使新组合在训练分布下的概率为 0:
例如:科幻小说场景
例:在一个陌生的城市开车
目前的深度学习不太成功,它可能会“过拟合”训练分布。
SOTA AI 和人类水平智力之间的差距
其主要的差距有:
样本复杂度:学习一项任务所需的样本数量;
非分布泛化;
适应的非分布速度(迁移学习);
因果发现和推理;
复合知识表示和推理
造成差距的唯一原因:有意识的处理?
假设:这种差距源于一种与人类意识处理相关的计算、知识表示和推理,但在人工智能中尚未掌握。
有意识的处理帮助人类处理 OOD 设置
面对新奇或罕见的情况,人类总是有意识的注意力,迅速结合适当的知识片段,对它们推理,并设想解决方案。
我们不遵循我们的惯例,在新奇的环境中使用有意识的思维。
系统 1 和系统 2 的认知——2个系统(以及认知任务的类别):
系统 1
直觉、快速、无意识、一步并行、非语言、习惯性;
隐性知识;
当前 DL
系统 2
缓慢的、有逻辑的、顺序的、有意识的;
语言,算法,计划,推理;
明确的知识;
DL 2.0
从推理到 OOD 泛化
目前工业级别的机器学习(包括 NLP)由于糟糕的 OOD 性能而遭受鲁棒性问题;
人类使用更高层次的认知(系统 2)进行非分布泛化;
为什么有帮助,如何有帮助?
这与代理、因果关系有什么关系?
我们如何在深度学习中结合这些原则来获得系统 1 和系统 2 的深度学习?
将知识分解成可组合的片段进行推理
目前的深度学习:同质架构、知识没有本地化、完全分布式;
迁移学习:重用相关的知识片段,最大限度地减少干扰,最大化重用;
系统 2 推理选择和组合可命名的知识片段,形成思想(想象的未来、反事实的过去、问题的解决方案、输入的解释等)。
如何将知识分解成正确的可重组片段?
迁移到修正分布:超越 iid 假设
iid 假设太强→分布外泛化能力差;
宽松的假设:相同的因果动力学,不同的状态/干预
因果关系作为 OOD 泛化、迁移学习、持续学习等的框架:
非平稳知识(变量值)的因子平稳知识(因果机制);
干预=变量的改变,不仅仅是由于默认的因果链接,而是由于代理;
因果模型=分布族(包括任务);
这些分布的指标是干预措施的选择(或初始状态);
固定知识被分解成可重组的因果机制
为什么需要因果?
因果模型=通过干预/环境/初始状态等与共享参数(机制)索引的分布族
学习者必须预测干预措施的效果,需要解决 Out-Of-Distribution(OOD)=新的干预措施;
干预=完美实现代理的抽象动作;
更现实:实现抽象变量变化的意图=目标;
与多任务和元学习不同,不是学习特定于任务或环境的参数,而是对干预进行推断
Yoshua 团队今年在因果领域研究也有着一个研究成果——作为概率推理机的大型深度网络:
最后,Yoshua 也表达了自己的愿景:让机器学习走出实验室,走入社会。
机器学习不再只是一个研究问题
基于机器学习的产品正在设计和部署中
而这也是人工智能科学家、工程师、企业家和政府的共同的新责任。
而 AI 也是一个强大的工具,要重点关注它的:
双重用途;
智慧竞赛:技术进步 vs 智慧进步;
如何最大化其有益的使用,以及减少其误用?
同时,一切事物都像双刃剑,AI 也不例,我们也应当避免一些对于社会的负面影响:
控制人们思想的 Big Brother 和杀手机器人;
失业人士的痛苦来源,至少在过渡转型时期是这样;
来自广告和社交媒体的操纵;
强化社会偏见和歧视;
使得不平等加剧,权力集中在少数人、公司和国家。
更多内容,点击下方关注:
微信扫码关注该文公众号作者