Redian新闻
>
ELITE项目原作解读:基于扩散模型的快速定制化图像生成

ELITE项目原作解读:基于扩散模型的快速定制化图像生成

公众号新闻

近年来,大规模预训练的扩散模型(如 Imagen、DALLE-2、Stable Diffusion)在图像生成方面取得了巨大进展,尤其是在文本到图像生成任务中。根据给定的文本,现有的大模型能够生成多样且逼真的图像。然而这些模型依然难以满足用户对于生成结果精细控制的需求,特别是生成特定视觉概念的要求。定制化文本到图像生成方法,如 Textual Inversion、Custom Diffusion 等通过将给定的视觉概念表示成文本嵌入,可以更方便地实现对特定概念的生成和编辑。然而这些方法通常基于优化的方式来学习文本嵌入,需要较长时间(几分钟至几十分钟)学习新概念,限制了其实际应用效果。

为了实现快速的定制化文本到图像生成,我们提出一种基于模型的方法 ELITE。首先,ELITE 利用全局编码网络将视觉概念直接映射到文本嵌入,并在训练时引入多层特征策略以提升文本嵌入的可编辑性。同时,ELITE 使用局部编码网络进行细节补充,以更好地平衡定制化生成的一致性和可编辑性。实验结果表明,ELITE 可以在极短的时间内(小于 0.1 秒)学习新的视觉概念,并可以进行高效的编辑。

机器之心最新一期线上分享邀请到了哈尔滨工业大学博士生魏于翔,为大家分享他们近期工作 ELITE。

分享主题:ELITE:基于扩散模型的快速定制化图像生成

分享嘉宾:魏于翔,哈尔滨工业大学博士生,主要研究方向为图像生成,曾在 CVPR, ICCV, ECCV 等会议上发表论文数篇。

分享摘要:ELITE 是一种基于模型的快速定制化文本到图像生成方法。其首先利用全局编码网络将视觉概念直接映射到文本嵌入,并结合局部编码网络对概念细节进行补充,以更好地平衡定制化生成的一致性和可编辑性。实验证明 ELITE 能够以极高的效率(<0.1秒)得到新的视觉概念,并可以高效快捷的编辑。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/elite

2)论文链接:

https://arxiv.org/abs/2302.13848

3)代码仓库:

https://github.com/csyxwei/ELITE


加群看直播
直播间关注机器之心机动组视频号,北京时间 3 月 29 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「ELITE」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
比Diffusion更快!OpenAI新图像生成模型开源了!清华校友宋飏一作TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测张艺谋的《满江红》为啥这样红AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPSCVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成AudioLDM一作解读:文本生成高质量音频,单GPU即可闲说跨年在墨西哥城 (4b) - 艺术宫壁画Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型微软3D生成扩散模型RODIN,秒级定制3D数字化身JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionSpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型SparK项目原作解读:卷积模型的首个BERT预训练Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成MOAT项目原作解读:强大的可扩展视觉骨干网络扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDrawCVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent Diffusion证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023港中文李教授:基于遥感图像的地理空间图像分类识别|收获一作论文与导师推荐信!22~23岁末年初出行记8: 蒙特雷湾水族馆DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架谷歌出品:基于大型语言模型的语义解析方法每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型北外的知名英语教授MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑生成扩散模型漫谈:W距离 ≤ 得分匹配视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型紧急情况下的LUNA规则开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。