词汇表规模太大强化学习训不动怎么办?降维让你重拾信心!
论文题目:Reinforcement Learning with Large Action Spaces for Neural Machine Translation
论文机构:耶路撒冷希伯来大学计算机科学系
论文作者:Asaf Yehudai, Leshem Choshen, Lior Fox, Omri Abend
论文链接:https://arxiv.org/abs/2210.03053
-01-
主要贡献
-02-
摘要
在最大似然估计 (MLE) 预训练之后应用强化学习 (RL) 是一种通用的方法,可以提高神经机器翻译(NMT)的性能。然而,最近的工作认为,RL 对 NMT 的提升主要是因为 RL 可以增强那些在预训练中已经获得比较高的概率的 token。我们假设大动作空间是 RL 提升 MT 效率的主要障碍,并且通过两组实验来支撑我们的假设。首先,我们发现减少词汇量可以改善 RL 的效率。其次,我们发现在不改变词汇量的前提下降低动作空间的维度同样可以在BLEU 值、语义相似度、和手动评估这些指标上获得显著的改善。事实上,通过一个对类似的动作进行泛化的层来初始化网络的最后一个全连接层(将网络的内部维度映射到词汇维度),我们让 RL 的性能得到大幅提升:平均1.5个 BLEU 点。
-03-
背景与理论介绍
MLE 算法及其缺陷
极大似然估计(MLE, Maximum Likelihood Estimation)的原理
极大似然估计的缺陷
该部分摘录自(肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.[2])
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练用目标函数。但是,使用极大似然估计存在曝光偏置(Exposure Bias)问题和训练目标函数与任务评价指标不一致问题,具体体现在如下两个方面。
极大似然估计已成为机器翻译乃至整个自然语言处理领域中使用最广泛的训练用目标函数。但是,使用极大似然估计存在曝光偏置(Exposure Bias)问题和训练目标函数与任务评价指标不一致问题,具体体现在如下两个方面。
曝光偏置问题。在训练过程中,模型使用标注数据进行训练,因此模型在预测下一个单词时,解码器的输入是正确的译文片段。也就是,预测第
个单词时,系统使用了标准答案 作为历史信息。但是对新的句子进行翻译时,预测第 个单词时使用的是模型自己生成的前 个单词,即 。这意味着,训练时使用的输入数据(目标语言端)与真实翻译时的情况不符,如图1所示。由于模型在训练过程中一直使用标注数据作为解码器的输入,使得模型逐渐适应了标注数据。因此在推断阶段,模型无法很好地适应模型本身生成的数据,这就是曝光偏置问题。 训练目标函数与任务评价指标不一致问题。通常,在训练过程中,模型采用极大似然估计对训练数据进行学习,而在推断过程中,通常使用 BLEU 等外部评价指标来评价模型的性能。在机器翻译任务中,这个问题的一种体现是,训练数据上更低的困惑度不一定能带来 BLEU 的提升。更加理想的情况是,模型应该直接使性能评价指标最大化,而不是训练集数据上的似然函数。但是很多模型性能评价指标不可微分,这使得研究人员无法直接利用基于梯度的方法来优化这些指标。
图1 曝光偏置问题(基于循环神经网络的翻译模型)
强化学习和 MRT 方法
强化学习
(该部分内容摘录自维基百科:强化学习[3])
强化学习(英语:Reinforcement learning,简称 RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机问题和有限 MDP 中研究得最多。
MRT(Minimum Risk Traning for Neural Machine Translation[4])方法
在 MRT 方法中,风险被描述为以下公式:
对于训练集中的每个源语
为了使取样后的样本的概率之和为1,对
另外差异指标选择 BLEU 值,即:
将上述二式带入原式,得到:
值得注意的是,我们对这个公式对参数
对于 MRT 算法想要了解更多内容的可以阅读论文Minimum Risk Training for Neural Machine Translation。
-04-
作者的探索过程
以下是作者的思考过程。首先作者比较了获得较好效果的任务上的强化学习和使用在 NMT 任务上的强化学习,发现他们有一个最主要的差异就是动作空间的大小。在这里我用这个马里奥的游戏举例:使用强化学习训练马里奥游戏的任务时,动作空间只有控制马里奥前进、后退、跳跃这些数量很少的操作,而在NMT任务上,动作空间就变成了词汇表中所有的词汇,二者的空间大小差距巨大。
图2 作者的思考过程
发现这个差异后,作者直觉上认为就是因为动作空间实在太大了,才造成的强化学习训练效果不好,然后提出了减小动作空间会让训练效果更好的假设。
然后为了验证这个假设,作者进行了一个大幅度减小动作空间的实验,也就是在控制少了很多的目标词汇的情况下观察强化学习对NMT训练的提升效果,结果也正符合作者的猜想,减小了动作空间之后,强化学习对NMT的提升效果好了很多。
但是在实际情况中,改变词汇表是不太现实的,有限的词汇肯定无法表达完整的语义,为了达到减小动作空间而不减少词汇表中的词汇,作者提出一种更好的办法,就是在不改变词汇表的情况下降低动作空间的维度,把意思相近的词汇放到一块,而不把他们看成完全独立的个体。
为了验证这种方法的可行性,作者先进行了一个模拟实验,使用经典的强化学习任务,多臂老虎机问题,模拟这种降维后的大动作空间对模型训练过程产生的影响,结果也很不错。
有了前面这些实验做铺垫,最后作者将这种方法应用在了NMT模型上进行实验,最后也符合预期。
-05-
实验与分析
实验一 减小词汇量对强化学习训练效果的影响
作者在源语词汇量不变的前提下,分别设置不同规模的目标词汇,分别对17K~31K个词的 LTV 和1K个词的 STV 进行实验,测试不同大小的词汇量对训练结果的影响。
图3 LTV和STV的实验结果
图4 RL训练对于gold token的影响
如何降低词向量的维度
虽然降低词汇量会让强化学习的效果变好,但是在 NMT 模型中,降低词汇量并不太现实。前面可以看到虽然强化学习对于 STV 提升效果更大,但是大词汇量的翻译效果仍然更好,所以只能通过降低动作空间的有效维度来间接缩小动作空间。
图5 动作空间降维
我们把整个机器翻译神经网络简化成
在训练时,加载预训练的MLE到h函数并且冻结参数,然后训练
因为
从另外一个角度想,假设 token A 和 token B的语义十分相似,在这个训练过程中他们的词向量在空间中的位置很接近,因此在训练过程中不管模型选择了 token A 还是选择了 token B 模型的参数都会向差不多的方向收敛,这样训练的时候可以让模型更快的收敛。从这个角度,我们可以认为 token A 和 token B 在同一个维度上,相比于原来这两个 token 分别在不同的维度,实现了降维的效果。
实验二 使用多臂老虎机进行模拟实验
多臂老虎机问题
假设我们面前有
在这个实验中,这
实验结果
为了模拟大动作空间,作者在策略层面将动作空间复制了
对于实验,作者设置了四组实验,分别对网络的最后一层做不同的处理。Full net
对最后一层不做任何处理,只是正常的初始化和训练,informative
在初始化时对K个动作初始化后复制了 Freeze
是对所有的动作进行随机初始化后冻结参数;Informative and freeze
在informative
的基础上冻结参数。
图6 模拟实验的实验结果
Informative and freeze
最快收敛,其次Informative
和Full net
,而freeze
因为最后一层所有的参数都是随机初始化的并被冻结,所以训练没有任何效果。实验三 NMT 实验
有了前面的实验作为铺垫,最终作者在 NMT 模型上进行了实验,并且同时使用 BLEU 指标和手动打分进行评估。
在 NMT 的实验中分别使用了两种方法进行测试,一种是对 embedding 层
图7 使用 BLEU 评估的实验结果
图7中,MLE是只是用MLE进行训练,+RL
是同时使用了强化学习,+RL+FREEZE
是冻结了 MLE 在 embedding 层上的参数并使用强化学习进行训练,+BERT
是将 embedding 层改为 BERT 初始化后进行训练,+BERT+RL
是使用BERT
作为 embedding 层的同时使用强化学习进行训练,+BERT+RL+FREEZE
是将BERT
应用到 embedding 层并冻结其参数,之后使用强化学习进行训练,我们可以看到这一组在其中三组数据上的效果都是最好的。
图8 手动评估的实验结果
在图8手动打分评估的结果中,RL++
对应+BERT+RL+FREEZE
,可以看到它的效果普遍都要更好。然后对排名后的 gold token 进行统计发现,这种方法极大的提高了最好的 gold token 被选中的概率。
这些实验也验证了作者的猜想,包含语义的降维的动作空间会让强化学习在 NMT 模型上的学习效果更好。
图9 词向量的比较
如图9所示是作者对于动作空间的统计和比较,作者挑出了三组词,inflections pairs
是具有相同词根的词,synonyms pairs
是语义相似但是词根不同的词,random pairs
只是随机选的词。作者统计了他们在不同预训练词嵌入模型中词向量的余弦相似度。可以发现BERT
中的inflections pairs
的词向量余弦相似度较高,他们在动作空间中的分布较为集中;对于语义相似的词和随机的词余弦相似度都比较低,在空间中的分布更加分散;而MLE的词向量余弦相似度集中在0附近,说明词向量分布都分散。
因此这也可以解释了为什么BERT的效果更好,从另外的角度来说,使用维度更低的动作空间确实会让效果更好。
-06-
未来展望
未来的工作将提高 NMT 中 RL 训练的探索能力。实现这一目标的一个研究方向是使用 off-policy
方法。off-policy
方法,即从与目前优化的策略不同的策略中采样,在RL中很突出,并且在 policy gradient
方法的背景下也被研究。作者相信,采用这种方法来加强探索,结合他们提出的使用 target embedding
的方法,可以为 RL 在 NMT 中的应用,以及更广泛地在 TG 中应用,提供一条思路。
未来工作的另一个方向是改变网络的结构,以预测
-07-
总结与思考
本文从 NMT 模型经常使用的 MLE 的缺点出发,引出 MRT 强化学习方法,为了找出强化学习在 NMT 上的短板,比较获得较好性能任务的强化学习方法和应用于 NMT 上的区别,大胆做出了动作空间影响了强化学习性能的猜测;在猜测的基础上辅以模拟实验加以验证,并在取得较好结果的基础上,将动作空间降维方法应用于 NMT 上并取得了较好的改进;最后通过分析改进前后的动作空间中词向量的相似度进一步验证了自己的猜想。
大规模的词表作为 NMT 任务的一大软肋,限制了模型的表达能力,如果无法从数目上降低词表的规模,那么从维度上降低词表的规模,将词表中意义相近的词进行聚类确实是一个相当不错的想法。
虽然 BERT 使词根相同的词的词向量余弦相似度更高,但是如果在 BERT 的基础上能进一步提升具有相同语义的词汇的余弦相似度,模型的效果可能会更加理想;甚至如果可以更加大胆地尝试将意义相反的词建立某种联系,说不定效果会更好?
参考文献: [1] 维基百科:最大似然估计
[2] 肖桐 朱靖波,机器翻译:基础与模型,电子工业出版社, 2021.
[3] 维基百科:强化学习
[4] Minimum Risk Training for Neural Machine Translation
微信扫码关注该文公众号作者