大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池
机器之心发布
在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测,旨在帮助算法人员对模型取得更好的理解。
近年来,知识图谱受到学术界和产业界的广泛关注,在教育、生物医学、金融等领域得到了广泛的应用,凸显了结构化知识在智能应用中的重要作用。2020 年图灵奖得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》论文[1]曾指出:融合表示学习与复杂知识推理是人工智能进步的阶梯。在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。例如,现有的商业知识图谱往往存在大量的缺失属性、实体节点和大量相同的未对齐的实体节点,且知识图谱通常由多种模态构成,因而如何对大规模数字知识图谱进行链接预测和实体对齐(同款商品挖掘)面临严峻挑战;此外,现有的知识图谱通常缺乏对知识显著性的建模,如当用户在电商平台搜索 “跑步”关键词 时,“瓶装水”一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋、跑步机” 等健身用品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品,因此如何基于数字商业知识图谱进行商品显著性推理也面临巨大挑战。
由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务,对模型展开了全方位的评测,旨在帮助科研和算法人员对模型取得更好的理解。
OpenBG Benchmark 介绍
OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。数据集以开放的数字商业知识图谱 OpenBG[2]为基础构建,OpenBG 是开放的数字商业知识图谱,是一个使用统一 Schema 组织、涵盖产品和消费需求的百万级多模态数据集。OpenBG 由阿里巴巴藏经阁团队和浙江大学提供,开放的目标是利用开放的商业知识发现社会经济的价值,促进数字商务数字经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。首期开放包含以下三大类任务:
商品常识知识显著性推理
任务描述
常识知识是被社会广泛承认的对同一事物普遍存在的日常共识。在电商场景中,显著性常识基于背后的知识体系,能为不同的用户推荐合适的商品,对用户体验和购物效率有重要的意义。现有的常识分类方法往往只注重评判常识是否合理,如 "跑步需要喝水"、"出差需要背包"。但当在电商平台搜索 "跑步" 时,瓶装水一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋”、“跑步机” 等健身用品;在搜索 "出差" 时,“背包”一般并不是用户需要的商品,但 “旅行箱” 可能是符合用户意图的商品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品。
任务说明
本任务要求对电商常识三元组的显著性进行判断,即给定常识三元组(S,P,O),输出其显著性分类标签,如下表所示,其中 1 表示显著,0 表示不显著。
商品同款挖掘
任务描述
同款商品是指商品的重要属性完全相同且客观可比的商品,商品同款识别的主要目的是从海量结构化和无结构化的商品图文数据库中匹配得到同款商品,是构建电商产品关系的重要环节。商品同款作为商品知识图谱的重要组成部分,有很多应用场景,如同款商品发现等。
任务说明
我们将商品同款识别任务定义为二分类任务,即给定商品对信息,判断商品 item 是否同款,示例如下:
商品关系推理与链接预测
任务描述
由于知识图谱普遍存在不完整的问题,因此需要关系推理与链接预测技术对缺失的图谱节点进行预测。本任务旨在提升数字商业场景下知识图谱嵌入效果,满足商品推荐等应用对推理商品潜在关联性的需求。
任务说明
知识图谱一般通过三元组(h,r,t)的形式组织数据,其中 h 被称为头实体,t 为尾实体,r 为连接头、尾实体的关系。如下图所示(“化妆棉”,“品牌”,“屈臣氏”)就是一个图谱三元组。知识图谱的链接预测任务指的是已知头实体(或尾实体)和关系的情况下,预测缺失的尾实体(或头实体)。下图中,(“化妆棉”,“适用群体”,?)就是一个链接预测任务,需要预测出尾实体。
数据集
与商品常识显著性推理以及同款挖掘任务不同的是,链接预测任务由 3 个子任务数据集组成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 类关系,含百万级别规模的图谱数据;OpenBG500-L 在 OpenBG500 的基础上扩大了数据规模,含千万级别规模的图谱数据,是电子商务领域大规模的知识图谱;OpenBG-IMG 是电商领域的多模态知识图谱。3 个数据集均以 OpenBG 为基础构建,构建流程如下:
OpenBG Benchmark 挑战榜
OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性。基于 OpenBG Benchmark 阿里巴巴藏经阁团队曾在 CCKS2022 大会成功组织了学术评测比赛,吸引了 3000 多支队伍报名参赛。目前 OpenBG Benchmark 已经在阿里云天池平台长期开放,感兴趣的研究者们可以访问如下链接参与挑战,平台会在每个月的月底评出榜单 Top5 选手,并赠予天池定制礼品!
挑战榜地址:https://tianchi.aliyun.com/dataset/122271
官方也提供了基线代码供算法人员参考: https://github.com/OpenBGBenchmark
OpenBG 参考论文如下:
Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.
Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).
Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214 2022.
引用:
[1] https://www.nature.com/articles/nature14539
[2] https://kg.alibaba.com
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者