CVPR 2023 | 微软提出LDGM：利用解耦扩散模型统一版面生成

2023-04-13 16:04

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CSIG文档图像分析与识别专委会

本文简要介绍CVPR 2023录用论文“Unifying Layout Generation with a Decoupled Diffusion Model”的主要工作。该论文提出基于解耦扩散模型的LDGM方法，将现有版面生成任务进行统一，实现更加通用的版面生成。LDGM将版面里任意缺失或粗定义的元素当作扩散过程中的中间状态。考虑到不同属性的不同特点，LDGM将不同属性的扩散过程进行解耦。实验结果表明LDGM可以在无条件\给定任意属性条件下进行版面生成。定量和定性比较实验表明LDGM性能优于现有的SOTA方法。

图1. LDGM将版面生成统一成扩散（加噪）过程和生成（去噪）过程.

一、研究背景

版面决定了一些格式化场景（如出版物、文档、交互界面等）中元素的位置以及大小。版面生成任务旨在生成包含各种类别、大小、位置、相互关系的元素的版面。实现版面生成自动化可以有效降低版面设计工作者的工作量，可以辅助多种实际设计场景。现有方法大多仅针对版面生成任务中的特定子任务，例如在给定类别条件下进行生成、在给定类别和位置条件下进行生成、对版面进行微调等，而无法同时完成不同的子任务。为了将多种子任务进行统一，实现更加通用的版面生成，本文提出基于扩散模型的LDGM方法，将各种不同条件的输入当成扩散模型的中间过程，从而实现在无条件\给定任意属性条件下都能实现版面生成任务。本文提出对不同属性的扩散过程进行解耦，以此更好地满足不同属性的不同扩散特性要求，且可以作为一种数据增广方式，使得训练数据更加多样。

图2. 子任务的定义. 传统的版面生成子任务定义（左图）可以被本文更通用的任务定义（右图）包含.

二、方法原理简述

图3.训练过程伪代码.

图4. 本文方法的整体网络结构.

图5. 生成过程伪代码.

扩散加噪过程。本文基于VQ-diffusion方法采用离散扩散方式：定义为任意属性，其中K为该属性类别数，由t-1时刻状态扩散到t时刻状态的概率由预定义的概率转移矩阵决定：

其中为保持类别不变的概率，为替换成另一类别的概率，为进行遮掩的概率，根据马尔可夫链性质：

基于，可以得到加噪过程的后验分布：

考虑到不同属性有不同的特点，本文将不同属性的扩散过程解耦开来，首先是概率转移矩阵的解耦，即对不同的属性定义不同的概率转移举证：对于元素类别这一属性，和都随扩散时间而线性增加，而对于几何相关的属性，如坐标和长宽，随扩散时间而线性增加，而则依据状态之间的距离确定：

其中为状态所处类别的位置。

其次是扩散时间线的解耦：如图3训练伪代码所示，不同属性加噪所采用的时间t是不同的。

去噪生成过程。神经网络通过学习输出，优化目标为最小化目标分布和模型输出分布的KL散度以及精确定义属性的重构损失：

生成过程采用本文提出的策略：如图5生成过程伪代码所示，每个时间步仅对预测概率在Top K的属性进行保留，而其余缺失位置则继续保持遮掩状态。

模型结构。如图4所示，本文采用基于Transformer的网络结构来预测，所有输入都进行了量化，输入Embedding包括二值的Condition Flag，指明属性是否精确定义；元素索引构成的Position Eembedding；属性类别的Attribute Type；以及属性的值Attribute Value。元素之间的关系则通过相对位置编码进行建模，即在做Self-attention时为K和Q分别加上一个偏置。两偏置项由元素间关系矩阵经过Embedding得到。

三、主要实验结果及可视化结果

表1. 与现有SOTA方法在不同子任务下的定量比较.

图6. 与现有SOTA方法在不同子任务下的定性比较.

表2. 在Rico数据集上验证不同加噪方式性能.

表3. 在Rico数据集上验证不同生成策略性能.

表4. Condition flag embedding的有效性验证.

从表1和图6可以看出，本文方法在所有三个数据集以及现有的各种子任务定义上取得了SOTA结果，而且还能实现更通用的版面生成任务。从表2可以看出，针对不同属性采用不同的加噪时间线，可以有效提高模型性能，且本文采用的平行加噪方式效果最优。从表3可以看出本文所提出采样过程相比于直接按顺序预测、一次性全部预测效果都要更优。表4则验证了Condition Flag的有效性。

四、总结及讨论

该论文创新性地提出了LDGM方法，其借助解耦的扩散模型将无条件\给定任意属性条件下的输入当成扩散过程中的中间状态，从而实现了更加通用的版面生成任务。针对版面属性特性进行针对性设计，包括将扩散过程进行解耦、生成策略等。实验结果证明了所提方法的有效性。

五、相关资源

Unifying Layout Generation with a Decoupled Diffusion Model论文地址: https://arxiv.org/abs/2303.05049

原文作者:Mude Hui, Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu

撰稿：张家鑫编排：高学

审校：连宙辉发布：金连文

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

扩散模型和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如扩散模型或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章