Redian新闻
>
eBay 开发新的推荐模型,从数据中挖掘商机

eBay 开发新的推荐模型,从数据中挖掘商机

公众号新闻

作者 | Claudio Masolo
译者 | 明知山
策划 | 丁晓昀

eBay 基于自然语言处理(NLP)技术,特别是 BERT 模型开发了一个新的推荐模型。这个被称为“Ranker”的新模型使用词袋之间的距离得分作为特征,从语义角度分析商品标题信息。与之前的模型相比,Ranker 帮助 eBay 将原生应用(Android 和 iOS)和 Web 平台上的购买、点击和广告指标分别提升了 3.76%、2.74% 和 4.06%。

eBay Promoted Listing Similar Reccomendation Model(PLSIM)由三个阶段组成。其中获取 Promoted Listing Similar,也就是所谓的“召回集”,是最为相关的。应用使用离线历史数据训练过的 Ranker,根据购买的可能性对召回集进行排序,通过合并卖家广告率对列表进行重新排序。这个模型的特征包括:推荐商品历史数据、推荐商品与种子商品的相似性、产品类别、国家和用户个性化特征。使用梯度提升树对模型进行连续训练,根据相对购买概率对商品进行排序。在相似度检测中加入基于深度学习的特征显著提升了性能。

之前的推荐排名模型使用 Term Frequency-Inverse Document Frequency(TF-IDF)和 Jaccard相似度来评估产品标题。这种基于节点标记的方法存在最基本的局限性,并且它不会考虑句子的上下文和同义词。相反,基于深度学习的 BERT 在语言理解方面表现出色。由于 eBay 语料库不同于书籍和维基百科,eBay 工程师引入了 eBERT,一种 BERT 变体,使用 eBay 商品标题数据进行了预训练。它使用维基百科的 2.5 亿个句子和 eBay 的 30 亿个多语言标题进行了训练。在离线评估中,这个 eBERT 模型在 eBay 的一组标记任务上的表现显著优于开箱即用的 BERT 模型,F1 得分为 88.9。

eBERT 架构对于高吞吐量推断来说太重了,可能无法及时推送推荐结果。为了解决这个问题,eBay 开发了另一个模型 microBERT,它是 BERT 的另一个轻量级版本,并针对 CPU 推理进行了优化。microBERT 将 eBERT 作为训练阶段的老师,使用了知识蒸馏过程。通过这种方式,microBERT 保留了相当于 eBERT 95% 到 98% 的推理质量,而时间减少了 300%。

最后,microBERT 使用了叫作 InfoNCE 的对比损失函数进行微调。商品标题被编码成词袋向量,模型的训练目标为增加已知彼此相关的这些向量(表示标题的词袋)之间主题距离的余弦相似度,同时降低迷你批次中所有其他商品标题对的余弦相似度。

这种新的排名模型在购买排名(售出商品的平均排名)方面有 3.5% 的改进,但其复杂性导致难以进行实时的推荐。这就是为什么要通过日批处理作业生成标题词袋,并存储在 NuKV(eBay 的云原生键值存储)中,将商品标题作为键,词袋作为值。通过这种方法,eBay 能够满足其在延迟方面的要求。

原文链接

https://www.infoq.com/news/2023/01/ebay-recommendations-odel/

相关阅读:

构建生产可用的推荐系统需要注意哪些问题?(https://www.infoq.cn/article/gxIEsqB7HZmhjEG7qjGH )

京东电商推荐系统的应用实践|InfoQ 公开课 (https://www.infoq.cn/video/bxRbfmTSRolVeV6oyc9u )

推荐系统的未来发展 (https://www.infoq.cn/article/3eRgwJ2zgciEvGu73XGs )

声明:本文为 InfoQ 翻译,未经许可,禁止转载

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

“干净”的代码,贼差的性能

一场向应用交付标准的“冲锋”

没有 NGINX 和 OpenResty 的未来:Cloudflare 工程师正花费大量时间用 Rust 重构现有功能

开源意味着不问责,我们准备好应对比 Log4Shell 更大的安全危机了吗?|Log4j 一周年特别报道

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【智次方专访|工业互联网篇】从数字工厂到中小企业,工业互联网平台如何承托万象?文化大革命是新文化运动的继续愚民的连花四川省大数据中心:2022四川数据开放指数报告从数据看,我们从“感染”中恢复了吗?CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!多位院士(潘德炉、焦念志、蒋兴伟)、相关专家出席会议!中国科学院海洋科学数据中心和ONCE科学数据平台启动会召开!从数十万美元的珠宝首饰到无价之宝猛犸象化石,纽约市掀了一股寻宝热!数字资产管理服务商「Share Creators」完成500万美元融资,以工具化手段帮助企业从数字资产管理中解放|36氪首发Meta开发AI“读心术”系统,仿真大脑模型,大脑活动直接转文字UNReal 每周一场主题电音节|本周六𝘿𝙧𝙪𝙢 𝙣' 𝘽𝙖𝙨𝙨 炸裂舞池!什么,睫毛膏用2个月就该扔?日用品的推荐寿命你都知道吗?2023年乐高机械组次旗舰42156标致9X8 24H勒芒混合动力超级跑车测评:创新的推杆悬挂结构被乐高设计师复原了!Could China ever surpass the United States economically?2022 stocks 投坛AAAI 2023 Oral | 字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA数据工程:从数据到价值Hui客厅|从数学零分到耶鲁商学院,我的“不足”让我做了这些选择女大学生失踪26年终破案!遭护花使者性侵灭尸,家中挖出“秘密坟墓”(图)来自皮肤科的推荐,我恨不得分享给所有人!专访叶定伟教授:探索多组学多维度utLIFE-UC模型,新的生物标志物助力尿液检测潜力无限大型语言模型的推理演算继联合开发可持续红色色素,DIC再携手Debut开发多酚类产品,将于2024年面向全球化妆品行业销售中国居民收入的五档划分,从数据看差距超长寒假怎么安排好玩又有意义?我有个靠谱的推荐腾讯:2023全域用户经营白皮书:STAR模型,从用户运营到生意增长中国电信:正在挖掘类ChatGPT服务的商机市值观察丨见微知著:从数字能源的今天看AI的明天香港投资推广署梁瀚璟:香港瞄准Web3百万亿级商机全球“抢人才”“抢企业”数据中心,三种关键组网模型60周蝉联畅销榜首,全球销售超650万册:新年第一本书,从欢乐暖心的推理神作开始感谢信最新综述:基于语言模型提示学习的推理从数据统计看看,怎样降低中老年高风险人群重复感染新冠风险?低碳绿色数据中心,让老工业园区焕发新活力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。