Redian新闻
>
CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成

CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:CSIG文档图像分析与识别专委会


本文简要介绍CVPR 2023录用论文“Unifying Layout Generation with a Decoupled Diffusion Model”的主要工作。该论文提出基于解耦扩散模型的LDGM方法,将现有版面生成任务进行统一,实现更加通用的版面生成。LDGM将版面里任意缺失或粗定义的元素当作扩散过程中的中间状态。考虑到不同属性的不同特点,LDGM将不同属性的扩散过程进行解耦。实验结果表明LDGM可以在无条件\给定任意属性条件下进行版面生成。定量和定性比较实验表明LDGM性能优于现有的SOTA方法。

图1. LDGM将版面生成统一成扩散(加噪)过程和生成(去噪)过程.

  • 一、研究背景



版面决定了一些格式化场景(如出版物、文档、交互界面等)中元素的位置以及大小。版面生成任务旨在生成包含各种类别、大小、位置、相互关系的元素的版面。实现版面生成自动化可以有效降低版面设计工作者的工作量,可以辅助多种实际设计场景。现有方法大多仅针对版面生成任务中的特定子任务,例如在给定类别条件下进行生成、在给定类别和位置条件下进行生成、对版面进行微调等,而无法同时完成不同的子任务。为了将多种子任务进行统一,实现更加通用的版面生成,本文提出基于扩散模型的LDGM方法,将各种不同条件的输入当成扩散模型的中间过程,从而实现在无条件\给定任意属性条件下都能实现版面生成任务。本文提出对不同属性的扩散过程进行解耦,以此更好地满足不同属性的不同扩散特性要求,且可以作为一种数据增广方式,使得训练数据更加多样。

图2. 子任务的定义. 传统的版面生成子任务定义(左图)可以被本文更通用的任务定义(右图)包含.
  • 二、方法原理简述



图3.训练过程伪代码.
图4. 本文方法的整体网络结构.
图5. 生成过程伪代码.

扩散加噪过程。本文基于VQ-diffusion方法采用离散扩散方式:定义为任意属性,其中K为该属性类别数,由t-1时刻状态扩散到t时刻状态的概率由预定义的概率转移矩阵决定:

其中为保持类别不变的概率,为替换成另一类别的概率,为进行遮掩的概率,根据马尔可夫链性质:

基于,可以得到加噪过程的后验分布:

考虑到不同属性有不同的特点,本文将不同属性的扩散过程解耦开来,首先是概率转移矩阵的解耦,即对不同的属性定义不同的概率转移举证:对于元素类别这一属性,都随扩散时间而线性增加,而对于几何相关的属性,如坐标和长宽,随扩散时间而线性增加,而则依据状态之间的距离确定:

其中为状态所处类别的位置。

其次是扩散时间线的解耦:如图3训练伪代码所示,不同属性加噪所采用的时间t是不同的。

去噪生成过程。神经网络通过学习输出,优化目标为最小化目标分布和模型输出分布的KL散度以及精确定义属性的重构损失:

生成过程采用本文提出的略:如图5生成过程伪代码所示,每个时间步仅对预测概率在Top K的属性进行保留,而其余缺失位置则继续保持遮掩状态。

模型结构。如图4所示,本文采用基于Transformer的网络结构来预测,所有输入都进行了量化,输入Embedding包括二值的Condition Flag,指明属性是否精确定义;元素索引构成的Position Eembedding;属性类别的Attribute Type;以及属性的值Attribute Value。元素之间的关系则通过相对位置编码进行建模,即在做Self-attention时为K和Q分别加上一个偏置。两偏置项由元素间关系矩阵经过Embedding得到。

  • 三、主要实验结果及可视化结果



表1. 与现有SOTA方法在不同子任务下的定量比较.
图6. 与现有SOTA方法在不同子任务下的定性比较.
表2. 在Rico数据集上验证不同加噪方式性能.
表3. 在Rico数据集上验证不同生成策略性能.
表4. Condition flag embedding的有效性验证.
从表1和图6可以看出,本文方法在所有三个数据集以及现有的各种子任务定义上取得了SOTA结果,而且还能实现更通用的版面生成任务。从表2可以看出,针对不同属性采用不同的加噪时间线,可以有效提高模型性能,且本文采用的平行加噪方式效果最优。从表3可以看出本文所提出采样过程相比于直接按顺序预测、一次性全部预测效果都要更优。表4则验证了Condition Flag的有效性。
  • 四、总结及讨论



该论文创新性地提出了LDGM方法,其借助解耦的扩散模型将无条件\给定任意属性条件下的输入当成扩散过程中的中间状态,从而实现了更加通用的版面生成任务。针对版面属性特性进行针对性设计,包括将扩散过程进行解耦、生成策略等。实验结果证明了所提方法的有效性。
  • 五、相关资源



Unifying Layout Generation with a Decoupled Diffusion Model论文地址: https://arxiv.org/abs/2303.05049  

原文作者:Mude Hui, Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu

撰稿:张家鑫 编排:高 学
审校:连宙辉 发布:金连文 

点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 20232022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent DiffusionCVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果剑桥&腾讯AI Lab提出PandaGPT:一个模型统一六种模态ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态美颜护肤护发2023-讲座笔记CVPR2023 | 微软提出高效率大规模图文检索模型大家怎么看气球事件?Eruope 2023CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernel炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!南澳散记 (增订本) :第十二章:买唱片 (上)AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!希腊塞萨洛尼基(Thessaloniki),朝霞似火国际要闻简报,轻松了解天下事(03扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDrawCVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式2023 春 祝姐妹们周末快乐!CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测豪斯曼:《诗歌外编》: 第八首:现在,违背伦理的大地CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion转:2023 回国探亲(5)微软3D生成扩散模型RODIN,秒级定制3D数字化身开源了!UniControl:可控视觉生成的统一扩散模型GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。