Wide&Deep、DCN、xDeepFM、DIN、GateNet、IPRec…你都掌握了吗？一文总结推荐系统必备经典模型（三）

2023-04-02 04:04

机器之心专栏

本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 3 期进行连载，共介绍 18 个在推荐系统任务上曾取得 SOTA 的经典模型。

第 1 期：DSSM、Youtube_DNN、SASRec、PinSAGE、TDM、MIMD
第 2 期：PinnerSAGE、ENSFM、MHCN、FFM、FNN、PNN
第 3 期：Wide&Deep、DCN、xDeepFM、DIN、GateNet、IPRec

您正在阅读的是其中的第 3 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾：DSSM、Youtube_DNN、SASRec、PinSAGE…你都掌握了吗？一文总结推荐系统必备经典模型（一）

第 2 期回顾：PinnerSAGE、ENSFM、MHCN、FFM…你都掌握了吗？一文总结推荐系统必备经典模型（二）

本期收录模型速览

模型	SOTA！模型资源站收录情况	模型来源论文
Wide&Deep	https://sota.jiqizhixin.com/project/wide-deep 收录实现数量：12 支持框架：TensorFlow, Pytorch, PaddlePaddle	Wide & Deep Learning for Recommender Systems
DCN	https://sota.jiqizhixin.com/project/dcn-2 收录实现数量：15 支持框架：TensorFlow, Pytorch, PaddlePaddle	Deep & Cross Network for Ad Click Predictions
xDeepFM	https://sota.jiqizhixin.com/project/xdeepfm 收录实现数量：6 支持框架：TensorFlow,PaddlePaddle, Pytorch	xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
DIN	https://sota.jiqizhixin.com/project/din-2 收录实现数量：17 支持框架：TensorFlow, Pytorch	Deep Interest Network for Click-Through Rate Prediction
GateNet	https://sota.jiqizhixin.com/project/gatenet 收录实现数量：1 支持框架：Pytorch	GateNet:Gating-Enhanced Deep Network for Click-Through Rate Prediction
IPRec	https://sota.jiqizhixin.com/project/iprec 收录实现数量：2 支持框架：PaddlePaddle	Package Recommendation with Intra- and Inter-Package Attention Networks

推荐系统是指利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程的系统。在广告、电商、信息流分发等业务场景中，推荐系统发挥了至关重要的作用，是帮助用户快速获得感兴趣的信息的关键，也是改进产品以吸引用户、提高用户粘性的关键。推荐系统把用户模型中的兴趣需求信息和推荐对象模型中的特征信息匹配，同时使用相应的推荐算法进行计算筛选，找到用户可能感兴趣的推荐对象，然后推荐给用户。为了实现精准推荐，首先要对用户进行画像。对用户画像打标签后，生成多维度、丰富、全面的用户标签，这些标签就是推荐系统中的特征，而这些特征就是推荐系统中的推荐算法/模型的输入数据。利用特征对推荐算法/模型进行离线训练，然后进行A/B测试后，获得最终的推荐算法/模型。后续还包括算法/模型的部署、冷启动等流程。

具体到推荐算法/模型部分，一般包括两大环节：召回和排序。

召回主要是指“根据用户的兴趣和历史行为，从海量的物品库里，快速找回一小部分用户潜在感兴趣的物品”。召回方法主要要求具备处理数据量大、处理速度快的能力。经典的召回方法包括基于统计的启发式召回和基于深度学习的向量召回方法。本报告主要聚焦于基于深度学习的召回方法。
排序则是指根据多类特征，使用模型进行个性化的推荐。排序环节还可以进一步细分为粗排、精排和重排。

推荐算法/模型在工业场景中应用主要面对下面这些问题：数据量庞大、训练环境低效、在线和离线环境的不一致、上线部署的困难等等。因此，一个好的推荐系统中一般会应用多个推荐算法/模型，而每个推荐算法/模型的最佳效果需要工程师在实践中摸索调试出来的，每个基础模型又有很多改良版本，针对不同的问题效果也可能不同。

我们在这篇报告中总结的是能够在推荐系统中应用的必备的TOP基础推荐算法/模型。

一、排序模型

1、 Wide & Deep

Wide & Deep的核心思想是：Wide模型用来从训练数据中学得出现频率高的特征或者特征组合，即模型的 memorization能力；Deep模型则用来从训练数据中学得出现频率低或者没出现过的特征组合，即generalization能力。通过将Wide模型和Deep模型进行联合训练，能够实现高效的推荐，特别是对于输入数据稀疏的场景。

图1. Wide & Deep模型结构

如图1的模型结构图，左侧是wide模型（memorization），使用基础的线形模型，包括基础特征 x 和交叉特征 ϕ(x) ，其中，

上式含义为将feature共同出现作为一个新的特征，c_ki 表征x_i 是否目标feature的组合集合中，如 "AND(gender=female,language=en)"，那么c_ki 包括gender=female、language=en两个属性（x_i 一般是one-hot之后的一个维度），那么当x_i 为上述两个时，取值为1，其余为0，这样就可以统计出该feature组合是否共同出现过，并将该值作为新的feature。
图19右侧为deep net，就是一般的Deep Nerual Network，首先将feature 嵌入到一个低维向量，然后接入MLP：

Wide和deep部分输出后加权和，再输入一个共同的logistic loss function用于联合训练：

联合训练不同于ensemble，ensemble是各个模型独立训练，同时汇总它们的预测结果，而联合训练则同时优化所有模型参数。在实验中该论文使用在线学习算法（Follow-The-Regularized-Leader）FTRL算法，F1正则化项作为wide部分的优化算法，AdaGrad作为deep部分的优化算法（optimizer）。

当前SOTA! 平台收录Wide&Deep共12个模型实现资源。

项目	SOTA！平台项目详情页
Wide & Deep	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/wide-deep

2、 DCN

在Wide&Deep 之后，2017年Stanford与Google联合推出了Deep&Cross Network（DCN）。该模型提出了Cross network，用于特征的自动化交叉编码。传统DNN对于高阶特征的提取效率并不高，Cross Network通过调整结构层数能够构造出有限阶（bounded-degree）交叉特征，对特征进行显式交叉编码。DCN 的全称是Deep & Cross Network，网络架构如图2。最开始是Embedding and stacking layer，作用是把Sparse feature 转化为Embedding Vec和 Dense feature 组合起来共同作为输入；然后是并行的Cross Network和Deep Network，其中，Cross Network只做特征的交叉，输入和输出的维度相同，Deep Network就是普通的网络；最后是Combination Layer，作用是把Cross Network和Deep Network的结果组合得到一个长向量，最后用sigmoid做二分类。

图2. DCN架构

Embedding and Stacking Layer
首先针对原始特征进行预处理，其中，类别特征（Sparse feature）可以通过二值化处理，然后进行特征嵌入，将高维稀疏特征转化为低维稠密的实值向量（Embedding vec），再拼接其他连续特征（Dense feature）作为模型的输入。

Cross Network
Cross Network的核心如下式：

其中，X_l、X_l+1∈Rd 分别代表Cross Network的第l、l+1 层的输出，W_l、b_l∈R^d分别为该层的参数与偏置项。因为
f(X_l, W_l, b_l)=X_l+1−X_l ，所以函数f:Rd↦Rd 拟合X_l+1 与X_l 的残差，这个思想与Deep Crossing一致。

图3. 一层cross layer的可视化

Cross Layer的特点包括：1) 每层的神经元个数都相同，都等于输入 x_0 的维度 d，也即每层的输入输出维度都是相等的；2) 受残差网络（Residual Network）结构启发，每层的函数拟合f 的是 x_l+1−x_l 的残差，残差网络有很多优点，其中一点是处理梯度消失的问题，使网络可以“更深”。

Combination Output Layer
将Cross Network与Deep Network部分的输出进行简单拼接，通过激活函数作为最后的输出：

模型使用的Loss函数为log loss，并且加入了正则项：

当前SOTA! 平台收录DCN共15个模型实现资源。

项目	SOTA！平台项目详情页
DCN	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/dcn-2

3、 xDeepFM

xDeepFM是一种新的压缩交互网络（Compressed Interaction Network，CIN），目标是以显式方式在矢量级上生成特征交互。一方面，xDeepFM 能够显式地学习某些边界度特征交互。另一方面，它可以隐式学习任意的低阶和高阶特征交互。

CIN网络设计的优点：1）以vector-wise而不是bit-wise形式得到特征交叉关系；2）可以得到显式的特征高阶交叉关系；3）参数容量不会随着网络层数的加深而呈指数形式上升。embedding向量是看做vector-wise形式的特征交互，然后将多个field embedding表示成矩阵X⁰，其中，X⁰的第i个field特征的嵌入向量(X_i,*)⁰=eⁱ，D为field embedding向量维度，对应的CIN第k层的输出为矩阵X^k。对于每一层，是通过下面的方式计算的：

其中，W^k,h表示用于计算第k层输出中的第h行向量 X(i,*)^k 的一个参数矩阵，因此W(i,j)^k,h是一个标量数值，即对哈达玛积计算标量倍数。X_k是通过X^k-1和X⁰计算得到的，因此特征交互关系是通过显性计算的，并且特征交互的阶数随着层数的增加也在加深。CIN结构如图4所示。

图4. 压缩交互网络（CIN）的组成部分和架构

作者分析，CIN的结构非常类似于RNN结构，即下一层输出的结果取决于上一层输出的结果和一个额外的输入，而且我们在每层中都是用这样的结构，因此特征交互关系就是在vector-wise水平上得到的。此外，如图22（a），CIN还与CNN有类比性，引入一个中间张量(intermediate tensor) Z^k+1，它是关于隐藏层X^k和X⁰的一个outer products（沿着embedding维度），因此可以将 Z^k+1看做一幅图像，并且 W^k,h 是一个filter。如图22（b）所示，我们将filter沿着 Z^k+1的embedding维度方向做平滑操作，即可得到隐向量 X(i,*)^k，将其称为一个feature map，因此 X^k 就是 H^k 个不同feature map的集合，X^k+1就是 H^k+1个不同feature map的集合。CIN中的名词compressed是指第k个隐层将 H^k-1*m 个向量的潜在空间压缩至个 H^k 向量。如图22（c）所示，表达CIN的整体结构，用T表示CIN的深度，每一个隐藏层 X^k（k属于[1,T]）和输出单元都有关联，在第k个隐层，在其中每个feature map上，完成sum pooling操作，即：

对于第k个隐层，可以得到pooling之后的向量：

对于所有隐层的pooling之后的向量，将它们concat之后作为输出单元：

直接使用CIN用于二分类，那么输出单元就是一个sigmoid节点：

当前SOTA! 平台收录xDeepFM共6个模型实现资源。

项目	SOTA！平台项目详情页
xDeepFM	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/xdeepfm

4、 DIN

针对特定的一件商品的推荐，如果特征中包含用户的历史行为，那么不能一概而论地对所有商品进行均等地计算，而以往的Embedding&MLP类型方法中，对历史商品没有侧重，这是不合理的。在DIN中，作者针对目标item对历史行为进行了attentive learning。举例来说，如果一个人买了一件游泳镜，那这一定是因为这个人之前买过泳装、泳帽之类的东西，跟这个人买的羊毛衫、电脑之类的其它东西不太相关。基于此，提出了 DIN 模型。DIN引入 local activation unit 计算历史行为与候选商品的相关性，之后对用户的兴趣点做weighted sum pooling ，得到对当前候选商品用户兴趣的表示向量。与候选商品相关性越高的行为，激活权重越大，在用户兴趣表征中占主导地位。那么对不同的候选商品，用户兴趣的表达向量是不同的，提高了模型在有限维度下的表征能力，能够更好地捕捉用户的各种兴趣。文章还提出一种适应性的正则化方法，以及由PReLU推广而来的适应性的Dice激活函数。

对于某条数据，可以表示为如下形式：

下表为全部特征，主要由4类组成：用户基本特征、用户行为特征、候选商品特征、上下文特征。表1. 阿里巴巴展示广告系统中使用的特征集的统计。特征是由稀疏的二进制向量组成的，以分组的方式展示

图5. 网络结构。左边部分是base模型（嵌入和MLP）的网络。将属于一个商品的cate_id、shop_id和goods_id的嵌入连接起来，代表用户行为中的一个访问过的商品。右边部分是DIN模型。它引入了一个局部激活单元，在不同的候选广告中，用户兴趣的表示是自适应变化的

图5 左侧为base模型的结构。base模型主要包含：Embedding layer、Pooling layer and Concat layer、MLP。损失函数为二分类的交叉熵损失函数，S是N个训练样本，x是模型输入，标签y∈(0,1)，p(x)是模型经过softmax层后的输出，代表这条样本x的候选商品被点击的概率

用户行为特征至关重要，与候选商品相关的历史行为对点击有很大的影响。DIN考虑历史行为的相关性，自适应地计算用户兴趣的表示向量，而不是用同一个向量来表达所有的不同兴趣。DIN引入 local activation unit，其他结构与 base model 相同，activation unit 应用在用户行为特征上，作为一个 weighted sum pooling，适应性的计算用户embedding向量。对于候选商品A，用户U的embedding向量可以表示为：

其中，e_1、e_2、...e_H代表H个用户行为特征embedding，v_A代表候选商品的embedding，a(·)是一个前向网络，输入两个embedding向量，输出权重。与传统attention方法不同，为了保留用户兴趣的强度，没有约束∑w_j=1。这里的∑w_j可以被看作在某一方面激活用户兴趣强度的近似，比如某用户历史行为包括90%的衣服和10%的电子产品，那么对于T恤和手机两个候选商品，T恤将会激活历史行为中的大部分衣物行为，会得到更大的，也就是相比于手机，对T恤有更强烈的兴趣。

在阿里巴巴的广告系统中，商品和用户的数量高达数亿。实际上，用大规模的稀疏输入特征训练工业深度网络是一个巨大的挑战。作者在文中介绍了两种重要的且在实践中有效的技术。

Mini-batch Aware Regularization
一种自适应的正则化方法，只计算在每个mini-batch中出现的特征的相关参数的L2范数。实际上，embedding dictionary 占据了网络模型的大部分参数量，令W∈R^Dxk代表整个 embedding dictionary 的参数，D是embedding向量的维度，K是特征空间的维度，在样本上表示为：

在mini-batch形式下，B代表batch的个数，B_m代表第m个batch，上式可表示为：

令

代表在第m个batch中是否有至少一个样本包含feature ID j，则上式可近似表示为：

那么，得到一个近似的带有L2正则的mini-batch参数更新方法，对第m个batch，feature j的embedding权重更新为：

Data Adaptive Activation Function
经典的激活函数PReLU如下：

其中，s是激活函数f(-)的输入的一个维度，p(s)=I(s>0)是一个指标函数，它控制f(s)在f(s)=s和f(s)=αs两个通道之间切换，第二个通道的α是一个学习参数。这里把p(s)称为控制函数。当各层的输入服从不同的分布时，PReLU取0值作为恒定的修正点可能不合适，因此提出一种根据输入的分布而自适应的激活函数，叫做Dice。当E和Var都为0时，Dice就退化为PReLU。

与PReLU的不同之处在于p(s)，在训练时E和Var是每个mini-batch输入的均值和方差，在测试阶段，E和Var是数据E和Var的平均，ε防止分母为0，设为1e-8。图24的左边部分绘制出了PReLU 的控制功能，右侧为Dice的控制函数。

图6. PReLU和Dice控制函数

当前SOTA! 平台收录DIN共17个模型实现资源。

项目	SOTA！平台项目详情页
DIN	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/din-2

5、 GateNet

GateNet是将门控机制应用在深度学习CTR预估模型中。推荐系统中常用的深度学习模型Wide & Deep，YoutubeNet，DeepFM等，可以看到这些模型都包括embedding layer和MLP hidden layers，那么将门控机制和这两种layer相结合，便产生了Feature Embedding Gate和Hidden Gate，如图7，接下来对二者分别介绍。

图7.GateNet的结构。左图是标准的DNN网络，中图是带有特征嵌入门的模型，右图是带有隐藏门的深度模型

Feature Embedding Gate
Feature Embedding Gate主要是在embedding layer增加门控机制，用于从特征中选择更为重要的特征。如果模型中带有Feature Embedding Gate，其网络结构如图25中图所示。假设输入的离散特征，经过Embedding layer得到E=[e₁,e₂,e₃,...,e_i,...e_f]，其中，f代表特征域的个数，e_i代表第i个域的embedding向量，长度为K。接下来，embedding向量会通过Feature Embedding Gate进行转换。首先，对每一个embedding向量，通过下面的公式来计算门值g_i，代表该向量的重要程度：

然后，将embedding向量e_i和门值g_i计算哈达玛积，得到ge_i，并得到最终的输出gated feature embedding GE：

上面是对Feature Embedding Gate的一个概要介绍，其具体的做法包括多种，比如输出的g_i是一个跟e_i同样长度的向量，那么此时称门为bit-wise gate，如果输出的g_i是一个值，那么此时称门为vector-wise gate。二者的区别如图8。另一种就是是否所有的域都用同一个参数矩阵W，如果每个域的参数矩阵都不相同，称之为field private，如果所有域的参数矩阵相同，称之为field sharing。

图8. 特征嵌入门。左图表示矢量特征嵌入门，右图是比特特征嵌入门

Hidden Gate
与上一部分类似，Hidden Gate主要是在MLP中增加门控机制，用于选择更加重要的特征交互传递到更深层的网络。如果模型中带有Hidden Gate，其网络结构如图25右侧图所示。假设a^(l)是第l层隐藏层的输出：

接下来将a^(l)输入到hidden gate中，计算方式如下：

综上所述，模型的总体表述为：

其中，yˆ∈（0，1）是CTR的预测值，σ是sigmoid函数，b^|L|是偏置，|L|是DNN的深度。学习过程的目的是最小化以下目标函数（交叉熵）：

当前SOTA! 平台收录GateNet共1个模型实现资源。

项目	SOTA！平台项目详情页
GateNet	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/gatenet

6、 IPRec

随着移动互联网中在线社交网络的蓬勃发展，本文提出了一个新颖的社交推荐场景，名为Package Recommendation。在这种场景中，用户不再被推荐单个项目或项目列表，而是被推荐异构且类型多样对象的组合（称为包，例如，包括新闻、媒体和观看新闻的朋友）。与传统推荐不同，在包推荐中，包中的对象被明确显示给用户，用户会对显式展示的对象表现出极大的兴趣，反过来这些对象可能对用户行为产生重大影响，并显著改变传统的推荐模式。传统和包推荐模式的区别如图9所示。

图9. (a) 现实世界中社交平台中的一个典型的包推荐例子。新闻的发布者和点击该新闻的朋友也明确显示出来，这将对用户产生一定的影响。(b)包推荐和传统推荐的比较

图10. IPRec框架。它包含三个部分。(a) 包建模模块，通过包内和包间注意力网络学习包嵌入，以捕捉多方面的影响和协作信息；(b) 用户建模模块，通过细粒度和粗粒度聚合网络对不同粒度的用户偏好进行建模，以及评级预测模块，通过学习的用户和包嵌入预测评级

IPRec的第一个组成部分是包的建模模块，它的目的是学习包的潜在表示。如前所述，在包推荐中，存在着连接一个包中的对象的包内连接，以及连接多个包的包间连接。因此，作者设计了两个注意力网络，分别称为包内和包间注意力网络，以应对包内和包间连接。包内注意力网络融合了对象层面的属性，它配备了一个社会影响编码器来分解来自社会关系的多方面影响，并配备了一个交互层来推导包内表示，编码包内异质对象的复杂和多方面的影响。另一方面，包间关注网络通过闸门注意力机制聚合相邻的包，以捕捉协作特征。

Intra-Package Attention Network
给定一个包P = {O𝜏|𝜏∈T }推荐给用户𝑢，在本文方案中，T = {Article, Media, Friend}，其中，O^Article = {𝑎}，O^Media = {𝑚}，O^Friend= {𝑢1, 𝑢2, - - -, 𝑢𝑥 }。对朋友𝑢𝑖对文章𝑎的社会影响进行分解，具体如下

u𝑖和a是初始表示，(W_𝑓)^k和(W_𝑎)^k是disentangled矩阵。随后，就包P中的文章𝑎而言，O^Friend∈P中的朋友的社会影响力被编码为第k个 disentangled embedding f^k：

不同的disentangled空间中的朋友代表对当前用户𝑢的社会影响有不同的贡献，进一步，可以将来自𝐾分解空间的影响与注意力机制结合起来：

接下来，由于包中的异质对象对用户的行为有多方面的影响，令包中的每个对象都相互影响，从而协同融合异质的不同信息。回顾一下，有文章𝑎、媒体𝑚和朋友{𝑢1, - -, 𝑢𝑥}的表示，表示为a、m和f，定义七个组合为：

然后，利用注意力机制，提炼出对当前用户𝑢不同重要性的多面信息，并将其融合为：

Inter-Package Attention Network
给定一个包集𝑃={P_1, ... , P_|𝑃 |}，其中，每个包P𝑖∈𝑃与当前包P有相互联系，引入gate filter聚合包集，融合协作信息如下：

IPRec的第二个组成部分是用户建模模块，其目的是捕捉用户的基本偏好。直观地说，一个包中的异质对象和不同的包都为用户的偏好提供了多方面的信息，它们从不同的角度表明用户的兴趣。因此，在两个不同的粒度上将这些多方面的异质信息纳入用户偏好，包括用一个细粒度的特征聚合网络来融合相关的对象，用一个粗粒度的包聚合网络来聚合历史上交互的包。

Fine-Grained Aggregation Network
给定一个用户𝑢，将与𝑢相关的不同类型的对象表示为A𝑢=(A𝑢)¹ ∪ - - ∪(A_𝑢)^T，例如，𝑢阅读的文章或者𝑢订阅的媒体。提取包中所有与用户互动过的对象，以捕捉细粒度的用户偏好。首先，区分同一类型的多个目标对用户偏好聚合的贡献。对于(A_𝑢)^t中的所有𝑡类型的对象，用节点级的注意力在𝑡类型空间中进行聚合，即：

此外，给定用户𝑢在不同类型空间{u¹, ..., u^|T| }中的多个嵌入，学习不同类型空间中多方面信息的注意力权重，然后用类型级注意力将其汇总如下：

Coarse-Grained Aggregation Network
为了进一步捕捉用户在粗粒度层面上的偏好，用一个门控注意力机制来汇总用户𝑢的历史交互包，如下所示：

现在我们得到了用户𝑢和包P的表征，即𝑢˜和𝑝˜，将它们连接起来，用两层MLP预测𝑦^uP和P之间互动的概率得分：

最后，我们优化以下交叉熵损失来估计模型参数Θ：

当前SOTA! 平台收录IPRec共2个模型实现资源。

项目	SOTA！平台项目详情页
IPRec	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/iprec

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章