当BERT-whitening引入超参数：总有一款适合你

2022-05-22 13:05

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在《你可能不需要 BERT-flow：一个线性变换媲美 BERT-flow》中，笔者提出了 BERT-whitening，验证了一个线性变换就能媲美当时的 SOTA 方法 BERT-flow。此外，BERT-whitening 还可以对句向量进行降维，带来更低的内存占用和更快的检索速度。然而，在《无监督语义相似度哪家强？我们做了个比较全面的评测》中我们也发现，whitening 操作并非总能带来提升，有些模型本身就很贴合任务（如经过有监督训练的 SimBERT），那么额外的 whitening 操作往往会降低效果。

为了弥补这个不足，本文提出往 BERT-whitening 中引入了两个超参数，通过调节这两个超参数，我们几乎可以总是获得“降维不掉点”的结果。换句话说，即便是原来加上 whitening 后效果会下降的任务，如今也有机会在降维的同时获得相近甚至更好的效果了。

方法概要

目前 BERT-whitening 的流程是：

其中是给定的句向量（如无说明，向量默认为行向量），是变换后的向量，SVD 分解的结果中，是正交矩阵，是对角矩阵，并且对角线的元素非负且从大到小排列。可以看到，目前的流程是完全固定的，即没有任何可调的超参数。

为了增加一定的调节空间，我们可以往里边引入两个超参数（标量），使其变为

思路分析

可以看到，当时，就是原来的 BERT-whitening；而当时，净变换就是

由于是正交矩阵，所以不改变内积结果，即

，所以当我们用余弦相似度作为相似度量时，它不会改变原有结果。换句话说，引入这组超参数后，它提供了“不逊色于变换前的效果”的可能性，那么当我们精调这组参数时，就有可能取得比变换前更好的效果。这也是这两个超参数的设计思路。

此外，在这样的改动之下，原来的降维能力还是得以保留的。我们可以将变换拆开为两部分看：

第一部分主要是正交变换，是矩阵 SVD 分解之后的结果，它能将向量变换成每个分量尽量独立的新向量，并且新向量的每个分量与 0 的平均波动正好是由的对角线元素来衡量，如果对应的波动很接近于 0，那么我们就可以认为它实际就是0 ，舍去这个分量也不会影响余弦值的计算结果，这就是降维的原理。而由于 SVD 分解的结果已经提前将从大到小排好了顺序，因此我们可以直接通过保留前维的操作就可以实现降到维了。

至于第二部分，我们可以理解为当前任务对各向同性的依赖程度，如果，那么相当于每个分量都是各平权的，这可以作为一个无监督的先验结果，但未必对所有任务都是最优的，所以我们可以通过调节来更好地适应当前任务。

实验结果

文章《无监督语义相似度哪家强？我们做了个比较全面的评测》已经显示，在 ATEC、BQ、LCQMC 三个任务上，SimBER T加上默认的 whitening 操作（即）都会导致效果下降，而如果我们取，那么结果就不一样了（随便演示了两个组合，其他组合结果相似）：

跟之前的文章一样，表格中的每个元素是的形式，代表该任务在该模型下“不加 whitening”的得分为、“加 whitening”的得分为、“加 whitening 并降到 256 维”的得分为；如果，那么显示为绿色，小于则显示为红色；如果，那么显示为绿色，小于则显示为红色。前面说了，如果不降维的话，的净变换就是，不改变余弦值结果，因此时的都是相等的。

在这个表格中，我们主要看中的第三个结果，它是将向量从 768 维降低到 256 维的结果，可以看到当时，不管是无监督的 BERT 还是有监督的 SimBERT，该结果基本都很接近原始向量的结果（即），部分结果甚至还有提升。这就意味着，这个组合几乎可以算是“免费的午餐”，几乎无损效果，并且实现了降维。