Redian新闻
>
WSDM 2023 | 针对长文档场景下的跨语言摘要

WSDM 2023 | 针对长文档场景下的跨语言摘要

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | PaperWeekly
作者 | 郑少辉
学校 | 苏州大学硕士生
研究方向 | 跨语言摘要
对于给定源语言编写的文档,跨语言摘要的目的是用不同的目标语言生成相应的摘要。在全球化的背景下,跨语言摘要可以帮助人们从他们不熟悉的语言的文档中获取关键信息,从而提高信息获取的效率。因此,这一任务变得更加重要,并引起了广泛的研究关注。然而,目前的跨语言摘要工作通常集中于短文本场景。
本文构建了第一个针对长文档场景下的跨语言摘要数据集 Perseus,包含 94k 个中文科技论文以及其对应的英文摘要。我们的数据集涉及四大学科,包括工程应用、自然科学、农业科学以及医药科学,文档的平均长度达到 2872.9 个汉字。相关工作已经被 WSDM 2023 接收。
论文标题:
Long-Document Cross-Lingual Summarization
代码链接:
https://github.com/LearnItBoy/Perseus

1

『研究背景』

现有的跨语言摘要数据集文档长度相对来说都比较短,比如常用的数据集 Zh2EnSum [1],它的文档长度平均只有 103.7 个汉字,而相对来说文档长度较长的 En2ZhSum [1],它的平均文档长度也只有 755.0 个单词左右,远无法称为长文档。长文档通常包含上千个字词,比起短文档,它包含更多的信息与细节。构建一个长文档跨语言系统可以帮助人们快速理解长文档的内容,在实际场景中具有重大的意义。然而,由于缺乏相应的数据集,该任务仍未得到充分的探索。
为了跨语言摘要在长文档上的发展,我们构建了第一个长文档跨语言摘要数据集 Perseus。我们通过爬取中文科技论文网站来获取到大量的科技论文资源,然后使用大量的解析方法与清理规则来对这些资源进行处理。最后得到 94k 个<中文文档,中文摘要,英文摘要>三元组。如图 1 所示是数据集的一个例子。除此之外我们根据 SportsSum [2] 这个体育赛事摘要数据集构建了一个科技论文领域外的测试集用来验证在 Perseus 上训练的模型的泛化性。
▲ 图1 Perseus的一个例子
表 1 是 Perseus 数据集的基本信息以及其他跨语言摘要数据集的信息的对比。可以看出我们的数据集的文档长度远远超过现有的跨语言摘要数据集,并且目标摘要的长度也大于现有数据集。同时我们的数据集有着最高的压缩率,这意味着对跨语言摘要模型提取精炼内容的能力提出了更高的要求。
▲ 表1 数据集的基本信息

2

『实验与分析』

为了验证我们的数据集是否可行,我们在 Perseus 上进行了大量的实验。我们采用了两种范式来进行实验,summarize-then-translate 的 pipeline 方法以及端到端 (end-to-end) 方法。其中 summarize-then-translate 分成了 extract-then-translate (ext-trans) 和 abstract-then-translate (abs-trans) 两种方法。采用的模型以及结果如表 2。
▲ 表2 实验效果
通过实验我们发现,abs-trans 的方法效果普遍好于 ext-trans 的方法,这是因为 abstractor 可以更灵活地根据文档中的重要句子生成新词或短语,而 extractor 不能对提取的句子进行任何修改。此外,pipeline 的方法中,模型的最后效果的好坏和采用的翻译模型的好坏高度相关。因此翻译模型的性能,特别是在长文档中错误积累倍数增加的情况下,尤为重要。
End-to-end 的方法在几乎所有的指标中都获得了最好的性能,这是由于 mLED [3] 方法以端到端方式进行翻译和摘要训练,不会出现错误传播问题。

3

『错误分析』

我们随机抽取了 mLED 模型在测试集上的两百条结果并分析出主要的错误类型以及比例,如表 3 所示:1)信息缺失;2)信息冗余;3)生成信息不忠于原文;4)生成语义不明。
▲ 表3 摘要结果错误类型及比例
长文档跨语言摘要中的信息缺失和冗余的问题十分严重,这是由于随着文档的长度以及文档与摘要的压缩率的增加,文档的关键信息在文档中的分布变得稀疏,模型从文章中提取关键信息的难度就越来越高。 
对于生成的信息不忠于原文的问题。例如,一份参考摘要称:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019。”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。错误的引用主要是由远程依赖问题引起的。在生成摘要时,该模型需要跨越长距离地融合信息。然而,随着距离的增加,远程信息变得越来越模糊,导致容易生成错误的信息。 
mLED 生成语义不明句子,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 这些句子让人难以理解,通常涉及语法错误。模型处理长文档时的远程依赖性问题是造成这个错误的原因之一。此外,这个错误也暴露了当前生成模型在生成长文本方面的不足。

4

『总结』

在本文中,我们提出了长文档跨语言摘要任务,并构建了第一个长文档跨语言摘要数据集 Perseus。该数据集具有文档长、摘要长、压缩率高的特点,为跨语言摘要提出了新的挑战。为了评估在我们的数据集上训练的长文档跨语言摘要模型的泛化性,我们还提供了一个体育领域的领域外测试集。

参考文献

[1] Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302

[2] Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405

[3] Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一夜暴跌3000亿!特斯拉或成2022年度美股最差劲科技股,马斯克也不再是全球首富…(附视频&摘要稿)COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型法律翻译 | 《哥大商法评论》2021年第2期(上)目录+摘要企业如何应对长期新冠带来的影响?WSDM 2023 | 基于实体对齐的文图检索优化算法沙茶猪肝面线让民营企业和企业家对长期政策有信心,需要持续努力重磅!全澳各地最全的跨年烟花攻略!全球数十亿人关注!迎接2023年收藏这篇就够啦!法律翻译|《哥大商法评论》2021年第3期目录+摘要阳后眼睛不舒服?对长期视力有影响吗?专家直播告诉你遭爆私藏机密文档 拜登:很讶异、不知道文档内容!移民政策大转弯 拜登政府被指令人困惑、自相矛盾!国产替代背景下的投资机会|巴伦圆桌论坛ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法聚焦丨人大国发院区域国别论坛(第十四期): 全球不稳定性加剧背景下的区域经济合作与国际能源安全基金交易场景下,如何利用 Apache APISIX 来稳固 API 安全财政部原副部长朱光耀:美国非常明确地在针对中国,但同时也针对了他的盟国COLING'22 Best Paper | 苏大提出:又快又准的端到端跨语义角色标注作为基于词的图解析多租户场景下的 SaaS 平台,该如何设计?“不仅针对俄罗斯,特别针对德国”【环球之旅】抢跑 越南-中国 越南+中文+越南ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作NeurIPS 2022 | Rebuttal起死回生!对攻击者的攻击:一种真实场景下的防御拜登与川普都陷「文档门」 但有4点大不同!拜登私藏机密文档风波还没完 传又被找到另一批最新!2023USNews世界大学排名!QS对打USNews谁最权威?场景实验室创始人吴声:绿色经济的场景深入 推动“道德精选”品牌涌现万字长文总结加密市场:梦醒2022,期盼2023“不仅针对俄罗斯,特别针对德国”!复杂场景下的权限系统该怎么玩?ABAC权限模型帮你搞定它!伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测2023年洛杉矶跨年活动精选:烟花、倒数、电音、狂欢,你想要的跨年派对,这里都有!效率加倍,高并发场景下的接口请求合并方案NeurIPS 2022 | 如何提高生成摘要的忠实度?写给西西不知高球码尺,难辨好处便宜!Episode number should I come up with a new title?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。