Redian新闻
>
多模态预训练模型指北——LayoutLM

多模态预训练模型指北——LayoutLM

科技



©PaperWeekly 原创 · 作者 | 杨希
单位 | 中国移动云能力中心
研究方向 | 自然语言处理



引子
LayoutLM 从提出到现在已经有 2 年多的时间了,多模态的文档、表单类的识别任务也逐渐走向成熟,在上一期《多模态预训练模型指北——LayoutLM(一)》笔者详细介绍了微软提出的 LayoutLMv1 以及对应的升级版 LayoutLMv2。在此基础上,本期简单的介绍一下微软在 2022 年新提出的 LayoutLMv3。
从笔者的理解来看,LayoutLMv3 [1] 更像是集成了这两年在多模态任务中非常有效的 Trick,并在文档 AI 这个领域上重新进行了试水,就发表了 v3 版本,其中参考的主要包括 BEiT [2]、ViLT [3] 等,下面就简单介绍一下微软的 LayoutLMv3。



正文

2.1 贡献

作者认为 LayoutLMv3 的主要贡献主要在于以下几点:

1. 首次提出了一种 Document AI 领域不需要预训练 backbone(包括 CNN、Faster R-CNN)的多模态模型。

2. 提出了一种 word-patch alignment,可以用于学习文本与图像之间关联关系。

3. LayoutLMv3 可以同时适用于以文本为主的任务以及以图像为主的 Document AI 任务(一般多模态任务都会这么写,估计是为了内容更加充实而增加的贡献点)。

2.2 预期




如在 ViLT 中将现有多模态任务大致分成了四个类型,成熟的多模态模型应该是更趋向于(d)的类型。如果做一个对应的话,LayoutLMv1 属于(b),LayoutLMv2 属于(c),那么自然而然的可以想到,LayoutLMv3 更像是从(b)到(c),然后到(d)的演进。

2.3 模型

具体的,LayoutLMv3 模型主要是在图像特征表示,文本与图像联合学习上做了进一步的改进,其整体结构如下:



v3 版本,采用了更简单的图像特征输入方式,并且结合新的图像特征的输入方式设计了一种新的任务用于构建文本与图像之间信息的融合与交互。

1. 使用更简单的图像特征表示方法:

LayoutLMv3 也没有让人意外,其提出的第一个创新点就是参考 ViT [4] 中图像的编码方法。其编码方法结构非常简单,其过程大体如下:



只需要将 Patch 的像素全部拉平就可以得到对应的图像特征(特征维度为 P),为了和语义的特征对齐(比如常见的 BERT 模型,语义特征维度为 768),那么需要增加一层线性变换使得语义特征与图像特征的维度一致。

而比较有意思的是,在实际实现的时候 [5][6],并没有用这种拉平加线性变换的形式,而是非常取巧的使用了一个简单的二维卷积,很显然这也同样能够达到相同效果。使用该方式进行特征值的抽取,其计算复杂度要远小于基于预训练的 Faster-RCNN 等模型。



2. 使用新的文本图像的关联任务(WPA)

在多模态任务中,必然会有一个任务是可以将文本与图像产生联系的。回顾 v2 版本的模型,主要采用的方法是将通过将不同行的图像文本进行覆盖(实际覆盖的范围是一个 bbox) ,然后通过预测未覆盖文本对应的图像片段是否被覆盖来产生文本与图像的关联性。但在 v3 中所有的图像都是通过 patch 的方式直接映射为图像特征,mask 的最小单位不再是 bbox,而是 patch 本身。那么把 v2 的任务进行简单的转换,v3 版本的 WPA 就是预测未覆盖文本对应的 patch 是否被覆盖。

3. MLM && MIM
除此之外,文本与图像还分别使用了各自领域非常经典的无监督预训练任务包括 MLM(Masked Language Modeling)以及 MIM(Masked Image Modeling),其中 v2 其实也使用到了 MLM(变种),但在 v2 中文本图像是基于 bbox 一一对应的,为了避免在 mask 的时候图像泄露信息,在 v2 中对于图像特征也同步做了 mask。而 v3 文本对应的基本单位是 patch,所以不存在这样对应关系/泄露的可能性非常低,所以可以直接使用 MLM。
而 MIM 则是直接使用的 BEiT 中的 MIM 任务,通过 dVAE(discrete variational autoencoder)[2] 技术,实现图像 patch 的编码,然后对 image token 进行  mask,MIM 则是通过未被 mask 的图像来预测原先被 mask 的图像的图像编码。
2.4 实验

关于实验,作者主要在多模态任务、传统视觉任务、消融实验来证明 v3 模型的有效性,比较让人惊喜的是,还提供了对应的中文模型,以及在中文数据集上的测试验证。

LayoutLMv3 在多个多模态任务(FUNSD、CORD、RVL-CDIP、DocVQA)上进行 fine-tuning 上效果比对,其中在 FUNSD 上效果最为显著。此外,实验还从模式上对目前解决多模态表单类任务理解进行了细分的综合性比对:包括从模型的特征信息:文本(T)、Layout(L)、图像(I),以及图像的特征提取器 Faster R-CNN(R)、CNN Grid(G)、Linear Patch(P)。

2. LayoutLMv3 在传统的视觉任务(PubLayNet)上进行 fine-tuning 的效果。

3. LayoutLMv3 使用消融实验来证明 MLM、MIM、WPA 几个任务的有效性。

4. 令人比较惊喜的是,LayoutLMv3 还在中文的 EPHOIE 数据集上进行了验证,并与百度出品的 StructText [7] 进行了对比,取得了 SOTA,平均 F1 score 达到了 99.21%。




总结
LayoutLM 很好的实现了表单数据中文本与图像特征的融合,擅长于处理各种表单的扫描件(财务报表、电子发票、审计报表等等)。虽然从创意的角度上不能说  v3 版本的模型具备什么颠覆性的创新,但是从实际使用的角度来说,剔除了  Faster R-CNN 这类图像的特征抽取网络之后,其性能更上了一个层级,理论上和  BERT 的性能可以基本达到一个水准,这也是非常有意义的。
除此之外,作者在未来的工作里面也提到了,在工业界使用的话基于 few-shot/zero-shot 表单信息抽取将会是一个非常有意思的课题。

参考文献

[1] Huang Y, Lv T, Cui L, et al. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking[J]. arXiv preprint arXiv:2204.08387, 2022.

[2] Bao H, Dong L, Wei F. Beit: Bert pre-training of image transformers[J]. arXiv preprint arXiv:2106.08254, 2021.

[3] Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[C]//International Conference on Machine Learning. PMLR, 2021: 5583-5594.

[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[5] https://juejin.cn/post/7081894732233719822

[6] https://github.com/microsoft/unilm/blob/master/layoutlmv3/layoutlmft/models/layoutlmv3/modeling_layoutlmv3.py

[7] Li Y, Qian Y, Yu Y, et al. StrucTexT: Structured text understanding with multi-modal Transformers[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 1912-1920.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型PromptCLUE:大规模多任务Prompt预训练中文开源模型中国失控,引发金融危机?自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling直播课预告:多模态预训练大模型OmModel及视觉应用开发医疗多模态预训练:如何利用非天然配对的医疗图像和文本做对比学习?CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全Uni-Mol:分子3D表示学习框架和预训练模型项目原作解读摄影欣赏:渔歌子(2):云雾苍茫行九霄陌上花开875 Be Your Mirror, Your Sword, Your Shield, and Your Love酸甜苦辣时令汤畅游法国(2)-破晓的雄鸡文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务Huge and Efficient! 一文了解大规模预训练模型高效训练技术I'm all about you什么意思呢?意思令人感动!Disabled Man in Chinese Countryside Inspires Disillusioned Youth​能让天津人放下煎饼馃子的,也就那碗捞(láo)面了!字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE【AHA2022速递】FOURIER和FOURIER-OLE研究二次分析:低一点好一点——LDL-C水平越低,远期心血管结局越好跟团游是个“体力活”如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用对预训练语言模型中跨语言迁移影响因素的分析每天一句英语名言:If you want something you have never hadSIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型#英语学习#英语俗语:Keep you on your toesEMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型达摩院损失 AI“大将”,预训练大模型 M6 技术负责人杨红霞离职COLING 2022 | CogBERT:脑认知指导的预训练语言模型每天一句英语名言:work hard in silence, let your success be your noise
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。