多模态预训练模型指北——LayoutLM

2022-09-18 13:09

©PaperWeekly 原创 · 作者 | 杨希

单位 | 中国移动云能力中心

研究方向 | 自然语言处理

引子

LayoutLM 从提出到现在已经有 2 年多的时间了，多模态的文档、表单类的识别任务也逐渐走向成熟，在上一期《多模态预训练模型指北——LayoutLM（一）》笔者详细介绍了微软提出的 LayoutLMv1 以及对应的升级版 LayoutLMv2。在此基础上，本期简单的介绍一下微软在 2022 年新提出的 LayoutLMv3。

从笔者的理解来看，LayoutLMv3 [1] 更像是集成了这两年在多模态任务中非常有效的 Trick，并在文档 AI 这个领域上重新进行了试水，就发表了 v3 版本，其中参考的主要包括 BEiT [2]、ViLT [3] 等，下面就简单介绍一下微软的 LayoutLMv3。

正文

2.1 贡献

作者认为 LayoutLMv3 的主要贡献主要在于以下几点：

1. 首次提出了一种 Document AI 领域不需要预训练 backbone（包括 CNN、Faster R-CNN）的多模态模型。

2. 提出了一种 word-patch alignment，可以用于学习文本与图像之间关联关系。

3. LayoutLMv3 可以同时适用于以文本为主的任务以及以图像为主的 Document AI 任务（一般多模态任务都会这么写，估计是为了内容更加充实而增加的贡献点）。

2.2 预期

如在 ViLT 中将现有多模态任务大致分成了四个类型，成熟的多模态模型应该是更趋向于（d）的类型。如果做一个对应的话，LayoutLMv1 属于（b），LayoutLMv2 属于（c），那么自然而然的可以想到，LayoutLMv3 更像是从（b）到（c），然后到（d）的演进。

2.3 模型

具体的，LayoutLMv3 模型主要是在图像特征表示，文本与图像联合学习上做了进一步的改进，其整体结构如下：

v3 版本，采用了更简单的图像特征输入方式，并且结合新的图像特征的输入方式设计了一种新的任务用于构建文本与图像之间信息的融合与交互。

1. 使用更简单的图像特征表示方法：

LayoutLMv3 也没有让人意外，其提出的第一个创新点就是参考 ViT [4] 中图像的编码方法。其编码方法结构非常简单，其过程大体如下：

只需要将 Patch 的像素全部拉平就可以得到对应的图像特征（特征维度为 P），为了和语义的特征对齐（比如常见的 BERT 模型，语义特征维度为 768），那么需要增加一层线性变换使得语义特征与图像特征的维度一致。

而比较有意思的是，在实际实现的时候 [5][6]，并没有用这种拉平加线性变换的形式，而是非常取巧的使用了一个简单的二维卷积，很显然这也同样能够达到相同效果。使用该方式进行特征值的抽取，其计算复杂度要远小于基于预训练的 Faster-RCNN 等模型。

2. 使用新的文本图像的关联任务（WPA）

在多模态任务中，必然会有一个任务是可以将文本与图像产生联系的。回顾 v2 版本的模型，主要采用的方法是将通过将不同行的图像文本进行覆盖（实际覆盖的范围是一个 bbox），然后通过预测未覆盖文本对应的图像片段是否被覆盖来产生文本与图像的关联性。但在 v3 中所有的图像都是通过 patch 的方式直接映射为图像特征，mask 的最小单位不再是 bbox，而是 patch 本身。那么把 v2 的任务进行简单的转换，v3 版本的 WPA 就是预测未覆盖文本对应的 patch 是否被覆盖。

3. MLM && MIM

除此之外，文本与图像还分别使用了各自领域非常经典的无监督预训练任务包括 MLM（Masked Language Modeling）以及 MIM（Masked Image Modeling），其中 v2 其实也使用到了 MLM（变种），但在 v2 中文本图像是基于 bbox 一一对应的，为了避免在 mask 的时候图像泄露信息，在 v2 中对于图像特征也同步做了 mask。而 v3 文本对应的基本单位是 patch，所以不存在这样对应关系/泄露的可能性非常低，所以可以直接使用 MLM。

而 MIM 则是直接使用的 BEiT 中的 MIM 任务，通过 dVAE（discrete variational autoencoder）[2] 技术，实现图像 patch 的编码，然后对 image token 进行 mask，MIM 则是通过未被 mask 的图像来预测原先被 mask 的图像的图像编码。

2.4 实验

关于实验，作者主要在多模态任务、传统视觉任务、消融实验来证明 v3 模型的有效性，比较让人惊喜的是，还提供了对应的中文模型，以及在中文数据集上的测试验证。

LayoutLMv3 在多个多模态任务（FUNSD、CORD、RVL-CDIP、DocVQA）上进行 fine-tuning 上效果比对，其中在 FUNSD 上效果最为显著。此外，实验还从模式上对目前解决多模态表单类任务理解进行了细分的综合性比对：包括从模型的特征信息：文本（T）、Layout（L）、图像（I），以及图像的特征提取器 Faster R-CNN（R）、CNN Grid（G）、Linear Patch（P）。

2. LayoutLMv3 在传统的视觉任务（PubLayNet）上进行 fine-tuning 的效果。

3. LayoutLMv3 使用消融实验来证明 MLM、MIM、WPA 几个任务的有效性。

4. 令人比较惊喜的是，LayoutLMv3 还在中文的 EPHOIE 数据集上进行了验证，并与百度出品的 StructText [7] 进行了对比，取得了 SOTA，平均 F1 score 达到了 99.21%。

总结

LayoutLM 很好的实现了表单数据中文本与图像特征的融合，擅长于处理各种表单的扫描件（财务报表、电子发票、审计报表等等）。虽然从创意的角度上不能说 v3 版本的模型具备什么颠覆性的创新，但是从实际使用的角度来说，剔除了 Faster R-CNN 这类图像的特征抽取网络之后，其性能更上了一个层级，理论上和 BERT 的性能可以基本达到一个水准，这也是非常有意义的。

除此之外，作者在未来的工作里面也提到了，在工业界使用的话基于 few-shot/zero-shot 表单信息抽取将会是一个非常有意思的课题。

参考文献

[1] Huang Y, Lv T, Cui L, et al. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking[J]. arXiv preprint arXiv:2204.08387, 2022.

[2] Bao H, Dong L, Wei F. Beit: Bert pre-training of image transformers[J]. arXiv preprint arXiv:2106.08254, 2021.

[3] Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[C]//International Conference on Machine Learning. PMLR, 2021: 5583-5594.

[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[5] https://juejin.cn/post/7081894732233719822

[6] https://github.com/microsoft/unilm/blob/master/layoutlmv3/layoutlmft/models/layoutlmv3/modeling_layoutlmv3.py

[7] Li Y, Qian Y, Yu Y, et al. StrucTexT: Structured text understanding with multi-modal Transformers[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 1912-1920.

更多阅读