Redian新闻
>
扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw

扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw

公众号新闻
机器之心报道

机器之心编辑部

为了让 AI 生成的图像里带有真正的文字,人们想尽了办法。


近来,文本生成图像领域取得了很多意想不到的突破,很多模型都可以实现基于文本指令创建高质量和多样化图像的功能。虽然生成的图像已经很逼真,但当前模型往往善于生成风景、物体等实物图像,但很难生成带有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像。


为了解决这个问题,来自 OPPO 等机构的研究者们提出了一个通用学习框架 GlyphDraw,旨在让模型能够生成嵌入连贯文本的图像,这是图像合成领域首个解决汉字生成问题的工作。



  • 论文地址:https://arxiv.org/abs/2303.17870

  • 项目主页:https://1073521013.github.io/glyph-draw.github.io/


我们先来看一下生成效果,例如为展览馆生成警示标语:


生成广告牌:


为图片配上简要的文本说明,文字样式也可多样化:


还有,最有趣也最实用的例子是生成表情包:


虽然结果存在一些瑕疵,但是整体生成效果已经很好了。总体来说,该研究的主要贡献包括:


  • 该研究提出了首个汉字图像生成框架 GlyphDraw,其中利用一些辅助信息,包括汉字字形和位置在整个生成过程中提供细粒度指导,从而使汉字图像高质量无缝嵌入到图像中;

  • 该研究提出了一种有效的训练策略,限制了预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),有效地保持了模型强大的开放域生成性能,同时实现了准确的汉字图像生成。

  • 该研究介绍了训练数据集的构建过程,并提出了一个新的基准来使用 OCR 模型评估汉字图像生成质量。其中,GlyphDraw 获得了 75% 的生成准确率,明显优于以前的图像合成方法。



模型介绍


该研究首先设计了复杂的图像 - 文本数据集构建策略,然后基于开源图像合成算法 Stable Diffusion 提出了通用学习框架 GlyphDraw,如下图 2 所示。


Stable Diffusion 的整体训练目标可以表示为如下公式:



GlyphDraw 基于 Stable Diffusion 中的交叉注意力机制,原始输入潜在向量 z_t 被图像潜在向量的 z_t、文本掩码 l_m 和字形图像 l_g 的级联替代。



此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。文本掩码和字形信息的引入,让整个训练过程实现了细粒度的扩散控制,是提高模型性能的关键组成部分,最终得以生成带有汉字文本的图像。


具体来说,文本信息的像素表征,特别是象形汉字这种复杂的文本形式,与自然物体有明显的不同。例如,中文词语「天空(sky)」是由二维结构的多个笔画组成,而其对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字有非常细粒度的特性,甚至是微小的移动或变形都会导致不正确的文本渲染,从而无法实现图像生成。


在自然图像背景中嵌入字符还需要考虑一个关键问题,那就是在避免影响相邻自然图像像素的同时,还要精确地控制文本像素的生成。为了在自然图像上呈现完美的汉字,作者精心设计了两个集成到扩散合成模型中的关键组件,即位置控制和字形控制。


与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布。

除了位置控制,另一个重要的问题是汉字笔画合成的精细控制。考虑到汉字的复杂性和多样性,在没有任何明确先验知识的情况下,仅仅只是从大量的图像 - 文本数据集中学习是极其困难的。为了准确地生成汉字,该研究将显式字形图像作为额外的条件信息纳入模型扩散过程。



实验及结果


由于此前没有专门用于汉字图像生成的数据集,该研究首先构建了一个用于定性和定量评估的基准数据集 ChineseDrawText,然后在 ChineseDrawText 上测试比较了几种方法的生成准确率(由 OCR 识别模型评估)。



该研究提出的 GlyphDraw 模型通过有效地使用辅助字形和位置信息达到了 75% 的平均准确率,从而证明了该模型出色的字符图像生成能力。几种方法的可视化比较结果如下图所示:


此外,GlyphDraw 还可以通过限制训练参数来保持开放域图像合成性能,在 MS-COCO FID-10k 上一般图像合成的 FID 仅下降了 2.3。



感兴趣的读者可以阅读论文原文,了解更多研究细节。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源了!UniControl:可控视觉生成的统一扩散模型证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成重访西班牙(11)-女王的加冕之城气球事件闹大了,麻烦来了生成扩散模型漫谈:W距离 ≤ 得分匹配AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAECVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑ELITE项目原作解读:基于扩散模型的快速定制化图像生成扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程讲座|数字图像文件的备份策略和数据恢复港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成管中窥豹:美国的MD, PhD, MD/PhD毕业时发表了多少篇SCI论文?7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型能说会唱,AudioGPT惊艳亮相!浙大、北大、CMU等提出全新音频理解与生成系统OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成戏说格律诗词——高大上的填字游戏一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景微软3D生成扩散模型RODIN,秒级定制3D数字化身OPPO推出MR头显“OPPO MR Glass”开发者版微软深夜放大招,几亿“打工人”惊喜又害怕!一键PPT,几秒出表格,人均AI助手的时代来了?Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态模型进化狂飙,DetectGPT能否识别最新模型生成结果?高校女生答辩被提问吓出表情包,导师疯狂护“崽”...终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS邮轮入门谈 中篇門鈴
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。