多模态预训练模型指北——LayoutLM
正文
2.1 贡献
作者认为 LayoutLMv3 的主要贡献主要在于以下几点:
1. 首次提出了一种 Document AI 领域不需要预训练 backbone(包括 CNN、Faster R-CNN)的多模态模型。
2. 提出了一种 word-patch alignment,可以用于学习文本与图像之间关联关系。
2.2 预期
如在 ViLT 中将现有多模态任务大致分成了四个类型,成熟的多模态模型应该是更趋向于(d)的类型。如果做一个对应的话,LayoutLMv1 属于(b),LayoutLMv2 属于(c),那么自然而然的可以想到,LayoutLMv3 更像是从(b)到(c),然后到(d)的演进。
2.3 模型
v3 版本,采用了更简单的图像特征输入方式,并且结合新的图像特征的输入方式设计了一种新的任务用于构建文本与图像之间信息的融合与交互。
1. 使用更简单的图像特征表示方法:
只需要将 Patch 的像素全部拉平就可以得到对应的图像特征(特征维度为 P),为了和语义的特征对齐(比如常见的 BERT 模型,语义特征维度为 768),那么需要增加一层线性变换使得语义特征与图像特征的维度一致。
2. 使用新的文本图像的关联任务(WPA)
在多模态任务中,必然会有一个任务是可以将文本与图像产生联系的。回顾 v2 版本的模型,主要采用的方法是将通过将不同行的图像文本进行覆盖(实际覆盖的范围是一个 bbox) ,然后通过预测未覆盖文本对应的图像片段是否被覆盖来产生文本与图像的关联性。但在 v3 中所有的图像都是通过 patch 的方式直接映射为图像特征,mask 的最小单位不再是 bbox,而是 patch 本身。那么把 v2 的任务进行简单的转换,v3 版本的 WPA 就是预测未覆盖文本对应的 patch 是否被覆盖。
关于实验,作者主要在多模态任务、传统视觉任务、消融实验来证明 v3 模型的有效性,比较让人惊喜的是,还提供了对应的中文模型,以及在中文数据集上的测试验证。
2. LayoutLMv3 在传统的视觉任务(PubLayNet)上进行 fine-tuning 的效果。
3. LayoutLMv3 使用消融实验来证明 MLM、MIM、WPA 几个任务的有效性。
参考文献
[1] Huang Y, Lv T, Cui L, et al. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking[J]. arXiv preprint arXiv:2204.08387, 2022.
[2] Bao H, Dong L, Wei F. Beit: Bert pre-training of image transformers[J]. arXiv preprint arXiv:2106.08254, 2021.
[3] Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[C]//International Conference on Machine Learning. PMLR, 2021: 5583-5594.
[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[5] https://juejin.cn/post/7081894732233719822
[6] https://github.com/microsoft/unilm/blob/master/layoutlmv3/layoutlmft/models/layoutlmv3/modeling_layoutlmv3.py
[7] Li Y, Qian Y, Yu Y, et al. StrucTexT: Structured text understanding with multi-modal Transformers[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 1912-1920.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
微信扫码关注该文公众号作者