QUERT：基于旅行搜索领域Query理解的预训练语言模型

2023-06-15 09:06

来自：知识工场

进NLP群—>加入NLP交流群

鉴于预训练语言模型的成功，对通用预训练语言模型的领域二次预训练已经成为领域迁移学习的范式。在项目中，我们提出了一种用于旅行搜索领域Query理解的领域二次预训练语言模型QUERT。针对旅行域搜索中Query的特点，QUERT在四个定制的预训练任务上进行联合训练:地理感知掩码预测(Geography-aware Mask Prediction)、Geohash编码预测(Geohash Code Prediction)、用户点击行为学习(User Click Behavior Learning)以及短语和单词顺序预测(Phrase and Token Order Prediction)。下游离线任务的性能改善和消融实验证明了我们提出的预训练任务的有效性。具体而言，在有监督环境和无监督环境下，下游任务的平均性能分数分别提高了2.02%和30.93%。为了检验QUERT对真实业务的改善，我们在阿里飞猪旅行业务里上线部署了QUERT并进行了A/B测试。结果显示，QUERT作为encoder时，Unique Click-Through Rate和Page Click-Through Rate分别提高了0.89%和1.03%。

Paper: http://arxiv.org/abs/2306.06707

Code: https://github.com/hsaest/QUERT

一、引言

预训练语言模型（Pretrained Language Models, PLMs）已在自然语言处理（NLP）领域取得了显著的突破，它们具有卓越的表征能力，并在各种领域为下游任务提供了明显的性能提升。然而，当直接应用到特定领域（如旅游领域搜索）时，这些模型往往表现不佳，原因在于预训练阶段的语料库与目标任务的数据存在不匹配。此问题的解决方案是使用领域特定的语料库进行持续预训练，从而构建特定领域的模型，这已被证明能显著提高下游任务的性能。

图1: Query和点击商品的示例

在本文中，我们关注旅游领域搜索中Query理解的持续预训练。旅游领域搜索是在线旅游APP的基础，有许多研究致力于这个方面。然而，据我们所知，没有工作专注于旅游领域搜索中的PLM。此外，由于旅游领域搜索中Query的特性，先前的预训练任务并不适用。我们分析了旅游领域搜索中的Query，并总结出三个特性：

（1）地理位置敏感（Geography Awareness）。大多数用户输入的Query包括地理位置和意图（如，在“杭州包团游”，“包团游”是意图，“杭州”是中国的一个旅游城市）。但经典的掩码语言模型（Masked Language Model, MLM）无法把握地理的重要性，因为随机掩码策略将所有的token都视为等同。此外，MLM产生的表示基于上下文理解，这意味着它不能反映真实的物理地理信息。

（2）点击行为引发的Query相似性（Query Similarity Driven by Click）。在搜索日志中，许多不同的Query链接到同一个点击商品，这意味着它们有着由用户点击行为驱动的相似性。因此，旅游领域搜索中的PLM被期望能够建模这样的潜在相似性。如图1所示，“杭州跟团游”和“西湖一日游”是两个字面上不同的Query，但它们指向同一个点击项。然而，由于缺乏相关的预训练任务，传统的PLM没有这样的能力。

（3）短语和token顺序的鲁棒性（Robustness to Phrase and Token Order）。首先，由于用户输入习惯，用户可能自由地改变Query中的词组顺序。例如，“跟团游杭州”可能会被输入为“杭州跟团游”。其次，由于用户输入错误，词组中的token顺序可能会被置换（例如，“游跟团杭州”）。

我们将上述现象定义为短语置换和token置换。实际上，这两种置换情况下其Query意图是相同的，返回的结果也应该是相同的。因此，旅游领域的模型应该对短语和token顺序具有鲁棒性。然而，由于缺乏特定的预训练，传统的语言模型不能理解置换中的逻辑一致性。

根据旅游领域搜索中的Query特性，我们提出QUERT通过四个定制的预训练任务有效地学习Query表示。对于给定的Query，我们引入其点击项作为额外信息。

具体来说，为了解决问题（1），我们设计了一个名为地理感知掩码预测（Geography-aware Mask Prediction，Geo-MP）的掩码策略，强制预训练模型更加注意地理位置词组。除了语义理解外，我们在Geohash编码预测（Geohash Code Prediction, Geo-CP）任务中引入Geohash，为语言模型建模真实的物理地理信息。

对于问题（2），为了为链接到同一点击商品的不同Query之间建立联系，我们提出用户点击行为学习（User Click Behavior Learning, UCBL）以学习潜在的相似性。

为了解决问题（3），我们提出短语和token顺序预测（Phrase and Token Order Prediction, PTOP）。我们打乱词组和token的顺序以模拟置换。QUERT需要预测被打乱的Query的原始词组和token顺序。这个任务旨在使QUERT学习置换中的逻辑一致性并对词组和token顺序具有鲁棒性。

我们的贡献总结如下：1）据我们所知，我们是探索旅游领域搜索中Query理解的持续预训练的首个工作。2）我们提出了四个定制的预训练任务：地理感知掩码预测、Geohash编码预测、用户点击行为学习以及短语和token顺序预测。3）在与旅游领域搜索相关的五个下游任务的实验结果证明了我们方法的有效性。具体来说，在监督和无监督设置下，模型性能分别提高了2.02%和30.93%。在Fliggy APP上的在线A/B测试显示，当使用QUERT作为特征编码器时，U-CTR和P-CTR分别提高了0.89%和1.03%。

二、方法

图2: QUERT结构图

2.1 地理感知掩码预测：

地理感知掩码预测(Geography-aware Mask Prediction, Geo-MP)旨在使QUERT能够感知地理信息。原因是我们观察到大多数Query在旅游域搜索中包含地理信息。为了验证这一点，我们从Fliggy APP中随机抽取1000个Query，通过内部地理字典映射来识别地理信息。统计结果显示，包含地理信息的Query占65%。因此，语言模型被期望能够很好地表示与地理相关的Query。然而，现有的预训练语言模型(如BERT)由于缺乏特定的预训练任务而不具备这种能力。因此，我们提出了地理感知掩码预测来改善这种情况。给定Queryq及其对应的点击商品c，我们使用一个特殊的符号[SEP]来组合它们。

合并点击商品的原因总结为三点：首先，在我们的统计中，大多数Query长度集中在1到10之间。过短的文本长度不利于预训练，反而增加了削弱模型表示能力的风险。其次，点击商品来自真实的用户行为，这保证了Query和商品是高度匹配的。此外，商品标题的长度是合适的(集中在25到35之间)。因此，点击商品是丰富Query信息的理想方案。

受BERT的启发，我们应用掩码语言模型(MLM)来预测掩码标记，不同之处在于我们将更高的概率分配给地理短语。具体来说，我们使用NER tool作为检测器来识别出现在q和c中的地理短语。我们设计了三种掩码策略。首先，对于q和c中共有的地理短语，我们为它们设置了50%的掩码概率。理想情况下，对于q和c中的地理短语，当其中一个被掩盖时，另一个是可见的。这使得模型能够从可见的短语中推断出隐藏的短语。其次，我们为只出现在q或c中的地理短语分配30%的掩码概率。第三，对于其余的单词，就像BERT一样，我们遮盖了15%。

2.2 Geohash编码预测
：

除了Geo-MP之外，我们还引入了Geohash Code Prediction (Geo-CP)来提高QUERT的地理敏感性。原因是在旅行域搜索中，语义理解对于下游任务(如Query重写和Query- POI检索)是不够的。例如，在query -POI检索任务中，当Query为“Hangzhou Tour”时，西湖是潜在的召回之一，因为西湖是位于杭州的著名POI。然而，基于掩码策略的MLM模型只能从语义层面理解地理位置，无法捕捉地理位置之间的层次关系或距离关系。所以，MLM可能会召回在文本中提到杭州的POI而忽略西湖。QUERT被期望具有建模真实地理位置(例如，物理位置距离和地理层次结构)的能力，以满足这样的需求。

因此，我们提出Geo-CP。给定Query和Click Item，Geo-CP的目标是预测geohash算法产生的geohash码。geohash算法将地理块划分为几个网格并根据经纬度进行编码。代码表示为字符串，精度由字符串中的比特数控制。每个位代表不同粒度的地理信息。相邻的网格共享相同的前缀。我们假设geohash码的长度为N位。

为了对地理文本进行编码，首先，我们定位项目中每个地理实体的经纬度。服务提供商上传的地理数据被认为具有较高的置信度。这就是为什么我们只考虑在商品中的地理因素。其次，我们将纬度和经度编码为geohash代码。最后，为了得到每个输入的唯一编码，我们根据解析的地理单元的数量分别处理它们。1)对于不包含地理单位的项，我们使用N位特殊令牌“*”来表示。2)对于只包含一个地理单元的点击商品，我们采用其geohash码作为最终的geohash码。3)对于包含多个不同地理单元的项，我们采用它们的最长前缀作为最终的地理哈希码。缺少N位的部分用特殊令牌“*”填充。在模型架构方面，我们使用N个独立的多层感知器(MLPs)来预测不同位置的比特。换句话说，每个MLP都有自己的粒度预测能力。

2.3用户点击行为学习
：

在搜索日志中，我们观察到不同的Query可能指向相同的点击商品。例如，杭州跟团游和西湖一日游都与“杭州一日游项，含西湖和灵隐寺”有关。这两个Query并不是字面上的相似，但它们具有由用户点击行为驱动的隐式相似性。传统的模型由于缺乏特定的预训练而无法对这种隐式相似性进行建模。因此，我们提出了基于对比学习的用户点击行为学习(UCBL)。在正例构建当中，我们选用链接至同一item的不同query。我们选用同一batch中的其他query作为负例。

2.4短语和令牌顺序预测：

短语和令牌顺序预测(Phrase and Token Order Prediction,PTOP)的设计目的是使QUERT能够学习自由排列中的逻辑一致性，从而对短语和单词顺序具有鲁棒性。根据我们的观察，旅行域中的Query自由组合有以下两种类型：

1) 短语自由组合。由于用户个性化的输入习惯，Query以不同的形式呈现。例如，例如“杭州一日游”与“一日游杭州”。这将导致由于Query的变化而返回的结果存在差异。本质上，对于相同意图的Query，返回的结果应该是相同的。

2) 用户错误输入导致Query中的单词自由组合。此外，Query中存在因为误输入导致的单词顺序调换。例如“杭州溪西湿地”。在对5000个错误形式的Query统计中，由于单词顺序调换的占比达到5.3%。

然而，传统的PLMs并不擅长对这种自由组合中的逻辑一致性进行建模。为此，我们提出了短语和单词序预测。以原始Query“Package tour Hangzhou”为例, QUERT期望预测每个token对应的短语顺序和置换后的token顺序。我们预先定义每个token的短语顺序为(1,1,2)。package和tour都在第一个短语中，因此它们的短语顺序都是1。每个token的单词序为(1,2,1)。请注意，每个token序仅限于token所属的短语。换句话说，最大token序不大于其对应短语的长度。具体来说，在短语package tour中，package是第一个令牌，tour是最后一个令牌，因此它们的令牌顺序分别为1和2。而杭州属于第二个短语，所以它的单词序又回到了1。

为了模拟自由组合，首先，我们在Query中随机打乱短语。那么“Package tour Hangzhou”可能会成为“Hangzhou Package tour”，其短语顺序的ground truth定义为 y=(2,1,1)。其次，我们根据特定概率随机选择短语，并对其中的单词进行洗牌。在此设置下，我们假设选择的短语是“Package tour”。洗牌之后，这句话就变成了“tour Package”。那么，最终呈现的Query是“Hangzhou tour Package”。因此，在本例子中，词序的ground truth为 y=(1,2,1)。最后，输出顺序分别由短语层和单词层计算。由于标记的顺序是根据短语来预测的，单词层被设计在短语层之后。

三、实验

3.1 下游任务

：

Query Rewrite（QR）: QR的目标是减小用户Query和数据库中存储的商品之间的表述差距。任务是将未解析的Query重写成解析的Query。任务形式为召回任务，评估指标包括准确度（Acc）和命中率（Hits@K），其中K通常设定为20。

Query-POI Retrieval（QPR）: QPR的目标是给定一个Query后，召回若干个POI（感兴趣的地点）推荐，以提高用户的搜索体验。任务形式为召回任务，评估指标是准确度（Acc）和命中率（Hits@K），其中K设定为20。

Query Intention Classification（QIC）: QIC旨在根据输入的Query预测用户的意图。任务形式为句子多类分类，使用的评估指标是精度（Precision）、召回率（Recall）和F1。

Query Destination Matching（QDM）: QDM的目标是确定给定Query的预期目的地。给定一个Query和候选城市，模型需要确定该城市是否是Query的预期目的地。任务形式为句子二分类任务，评估指标为精度（Precision）、召回率（Recall）和F1。

Query Error Detection（QED）: QED的目标是识别Query中错误的确切位置，如拼写错误、词序错误等。任务形式为序列标记，即预测每个令牌（token）的特定错误。任务形式为token级别的多分类任务。评估指标为精度（Precision）、召回率（Recall）和F1。

3.2有监督结果：

表1: 有监督结果

我们在有监督环境中将QUERT与基线模型在五个下游任务上进行比较。表1展示了结果。

首先，QUERT在所有下游任务中都达到了最先进的结果，这证明了我们提出的预训练任务的有效性。具体来说，与BERT相比，QUERT相比BERT平均性能提高了2.02%。此外，我们发现QUERT在困难任务上的优势更加明显。具体来说，QUERT在QIC上有巨大的性能优势，平均提高接近4%。

其次，由单一Query信息构成的语料库带来了负面效果。我们在原始Query语料库上直接进行二次预训练，并使用BERT[5]中使用的掩码策略，这在表2中表现为BERT𝑞。实验结果显示，BERT𝑞带来了负面效果的风险。具体来说，BERT𝑞达到的平均分数为70.90%，甚至低于原始的BERT。

我们分析，模型可能无法从较短的Query中学习知识表示，反而却削弱了文本理解能力。结果证明，常规的预训练任务不能直接推广到专注于Query的预训练模型。这证实了我们提出的预训练任务更适用于旅游领域。

最后，点击商品信息的融入提高了模型的表征能力。我们将商品的标题文本信息与Query连接起来，构建新的语料库。与BERT𝑞相比，BERT𝑞+𝑐的性能提高了近1.3%。这验证了我们的猜想，即在预训练阶段，模型得到了高可信度的点击商品信息，这有助于模型获取更多的Query知识。

3.3无监督结果
：

在无监督设置中，QUERT与两个基准模型进行了比较。具体结果如下：我们选择QR和QPR作为无监督测试任务，因为它们可以通过计算嵌入相似性直接获得结果。我们通过计算最后一层隐藏状态中获得的embedding的余弦相似性得到预测，用“[CLS]”令牌代表整个Query。从结果中我们可以观察到，QUERT在无监督设置下具有显著的性能优势。

QUERT𝐵𝐸𝑅𝑇 和 QUERT𝐸𝑅𝑁𝐼𝐸 显著优于基准模型。对于QR，我们提出的QUERT𝐵𝐸𝑅𝑇 在 Hits@20 上比基准BERT高出45.20%。对于QPR，QUERT𝐵𝐸𝑅𝑇 和 QUERT𝐸𝑅𝑁𝐼𝐸 显著优于两个基准，Hits@20的最大性能差距为39.09%。在平均分数方面，QUERT𝐵𝐸𝑅𝑇 比 BERT 的性能提高了30.93%。我们分析，性能差距原因在于QUERT在旅游领域搜索的Query理解方面更强大。在无监督设置中，定制的预训练任务使QUERT能够提供更好的Query表示。

表2: 无监督结果

3.4 消融实验：

为了检查定制的预训练任务是否能有效地提高下游任务的性能，我们进行了一系列的消融实验。具体来说，我们逐一移除任务以评估它们在性能上存在或缺失的影响。结果如下：

首先，任何任务的移除都会导致性能的损失。每一个组件，即Geo-MP，Geo-CP，UCBL和PTOP的移除，分别导致平均分数下降0.59%，1.00%，1.26%和0.96%。

其次，我们发现移除Geo-MP（即退化为原始的掩码策略）和Geo-CP会导致所有任务的性能下降。这揭示了这两个地理意识预训练任务有效地提升了预训练模型感知地理的能力。

第三，UCBL在句子级任务（即QIC和QDM）中起着最重要的作用。一方面，用户行为中的相似性构建使QUERT更好地理解Query。另一方面，在负例的研究中，句子级嵌入表示的区分度被放大，这对模型在预测中的识别有益。

最后，PTOP的移除导致QED的F1分数（86.99%）低于原始的BERT（88.35%）。我们猜测其他任务可能会引入额外的逻辑偏差，这导致模型在QED上的性能降低。然而，引入PTOP允许QUERT重构对Query的逻辑一致性的理解，从而产生显著的性能改进。此外，我们发现StructBERT，其目标是在MLM中重建顺序，在QED中并未取得优越的性能。这验证了我们提出的PTOP更适合旅游领域搜索的实际下游任务。

总的来说，结果验证了我们以定制的方式设计的预训练任务赋予了预训练模型在旅游领域搜索中强大的Query表示能力。

表3: 消融实验结果

3.5 任务分析

：

Task 1.

Geo-MP

为了验证Geo-MP的有效性，我们评估了BERT和BERT+Geo-MP对地理信息的敏感性。我们从Fliggy APP随机收集了500个Query。首先，对于Query中的地理标记，我们使用特殊的标记“[mask]”来代替它。然后我们让模型预测这些被遮盖的标记。我们采用命中率分数（Hits@K）、平均排名（MR）和平均倒数排名（MRR）作为指标。如表4所示，BERT的最佳分数只有Hits@5的2.2%。相比之下，BERT+Geo-MP在Hits@5上获得了13.2%，有更低的MR和更高的MRR。

为了进一步分析Geo-MP在位置预测中的优势，我们在表6中给出了一些案例。在案例1和2中，BERT+Geo-MP预测了正确的被掩码的标记，但BERT输出了非标准的城市名称或短语。此外，在案例3中，尽管BERT+Geo-MP给出了一个错误的地理短语，但它仍然输出了一个合理的预测。实际上，“灵隐寺”就是位于杭州的一个POI，它在给定的上下文中是有意义的。另一个不良案例，案例4显示，BERT+Geo-MP的输出更接近答案。结果验证了，经典的MLM对地理信息并不敏感。相比之下，Geo-MP使BERT对地理信息更敏感。

表4：BERT和 BERT Geo-MP的地理敏感性比较

表5: 地理位置MASK预测

Task 2.

Geo-CP

为了验证Geo-CP的地理表征能力，我们选择了10个热门城市中的500个热门POI，并通过t-SNE[25]可视化了它们的嵌入。我们使用"[CLS]"标记的嵌入来代表POI。如图4所示，BERT产生的嵌入在空间中无序分布。这证明BERT并未反映地理Query的真实位置信息。然而，我们可以观察到BERT+Geo-CP的嵌入空间更加有序，同一城市的POI在同一簇中。此外，我们也注意到Geo-CP呈现的空间确实具有真实的物理地理位置关系。例如，在现实世界中，上海、杭州和南京彼此接近，在图中，它们之间的关系确实一样。我们分析，通过Geo-CP，语言模型QUERT被赋予了地理位置表征能力。这证明了我们提出的预训练任务的有效性。

图3: t-SNE空间分布图

Task 3.

UCBL

为了验证UCBL的有效性，我们首先从搜索日志中选择了500个Query $q$ 和它们的点击行为相关的Query $q^{pos}$ ，以BERT和BERT+UCBL作为编码器，将 $q$ 和 $q^{pos}$ 输入到编码器中，获得他们的embedding。我们定义由BERT产生的𝑞和 $q^{pos}$ 的embedding为 $R_B^{q}$ 和 $R_B^{pos}$ ，从BERT+UCBL获得的embedding为 $R_{B+U}^{q}$ 和 $R_{B+U}^{pos}$ 。然后，我们计算( $R_B^{q}$ ， $R_B^{pos}$ )以及( $R_{B+U}^{q}$ , $R_{B+U}^{pos}$ )的余弦相似度。结果显示，前者的相似度为0.7758，后者的相似度为0.8278，这证明了BERT+UCBL能够感知到Query中用户行为的潜在相似性。

Task 4.

PTOP

为了验证PTOP的有效性，我们分析了不同模型在QED的顺序预测子任务上的表现。具体来说，这个子任务的目标是判断标记顺序是否被转置。结果在表6中报告。与BERT相比，由于其预训练任务的目标是重建标记顺序，StructBERT的表现更好。然而，BERT+PTOP在性能上优于StructBERT。根据我们的分析，PTOP直接关注顺序判断，这更符合旅游领域搜索的下游任务。PTOP的性能优势证明了我们提出的预训练任务的有效性。

表6: QED中顺序预测子任务的性能比较。

3.6 Case Study

：

在这个部分中，我们根据不同任务针对的Query的不同特性进行了案例研究。如图5所示，我们通过评估embedding的余弦相似度，比较了BERT和QUERT的表示能力。

地理位置敏感（Geography Awareness）

我们评估了QUERT对地理信息（即POI和城市）的敏感性。在图5 (a)中，我们计算了同一城市中不同POI之间的余弦相似度。例如，“欢乐谷”和“迪士尼”都是公园的名字，BERT给予了他们高度的相似度。然而，QUERT认识到他们是两个完全不同的POI并进行了区分。类似地，我们评估了不同城市中的相同POI。尽管两个Query都包含同样的POI“西湖”，但QUERT感知到重点在于城市，因此给出了低相似度得分。这些结果表明QUERT对地理信息具有意识，从而区分了不同地点的Query。

点击行为引发的Query相似性（Query Similarity Driven by Click）

我们还在图5 (b)中评估了对点击行为相似性的理解。对于“厦门旅游”和“厦门套餐旅游”的例子，BERT由于字面差异给予了他们低相似度。然而，QUERT理解了同样的意图“寻找厦门旅游的信息”的潜在用户行为相似性，并分配了高相似度。这种现象证实了QUERT能够理解由用户点击行为驱动的相似性。

短语和token顺序的鲁棒性（Robustness to Phrase and Token Order）

为了测试QUERT是否对短语和token顺序具有鲁棒性，我们在图5 (c)中选择了四个Query作为实验目标。对于“杭州一日游”和“一日游杭州”的例子，QUERT对短语位置更换有更高的容忍度。对于token顺序，QUERT识别出"三星堆"是"三堆星"的正确形式，并分配高相似度。这些案例表明QUERT确实对短语和token顺序具有鲁棒性。

图4：余弦相似度对比

四、结论

在本文中，我们专注于旅行领域搜索中Query理解的二次预训练。我们分析了Query表示困难的原因，并提出了一个解决方案：QUERT，一个二次预训练的语言模型。具体来说，我们提出了四个定制的预训练任务：地理感知掩码预测、Geohash编码预测、用户点击行为学习以及短语和token顺序预测。我们在旅行领域的五个下游任务上评估了离线性能。实验结果显示，与BERT相比，QUERT在下游任务上的性能分别在有监督和无监督的设置下提高了2.02%和30.93%。此外，Fliggy APP上的在线A/B测试表明，当应用QUERT作为特征编码器时，U-CTR和P-CTR分别提高了0.89%和1.03%。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

QUERT：基于旅行搜索领域Query理解的预训练语言模型

一、引 言

二、方 法

2.2 Geohash编码预测：

2.3用户点击行为学习：

三、实 验

3.3无监督结果：

四、结 论