Redian新闻
>
掀起一股中国风,最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

掀起一股中国风,最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

公众号新闻

机器之心专栏

机器之心编辑部
AI 作画在全世界越来越盛行。近日,百度发布知识增强跨模态大模型—— ERNIE-ViLG 2.0,在 AI 作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型。

据了解,ERNIE-ViLG 2.0 在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。


  • 论文链接:https://arxiv.org/pdf/2210.15257.pdf
  • 体验链接:https://wenxin.baidu.com/ernie-vilg


文心 ERNIE-ViLG 2.0: 最强中文 AI 作画大模型



AIGC (AI-Generated Content) 是继 UGC、PGC 之后,利用 AI 技术自动生成内容的新型生产方式。AI 作画作为 AIGC 重要方向之一,蕴含了极大的产业应用价值。相比于人类创作者,AI 作画展现出了创作成本低、速度快且易于批量化生产的巨大优势。


近一年来,该领域迅猛发展,国际科技巨头和初创企业争相涌入,国内也出现了众多 AI 作画产品,这些产品背后主要使用基于扩散生成算法的 DALL-E 2 和 Stable Diffusion 等国外模型。目前,这类基础模型在国内尚处空白,ERNIE-ViLG 2.0 是国内首个在该方向取得突破的工作。


当前 AI 作画技术在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此,百度提出了基于知识增强的混合降噪专家(Mixture-of-Denoising-Experts,MoDE)建模的跨模态大模型 ERNIE-ViLG 2.0,在训练过程中,通过引入视觉知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;在扩散降噪过程中,通过混合专家网络建模,增强模型建模能力,提升图像的生成质量。


我们先来欣赏下 ERNIE-ViLG 2.0 根据文本描述生成图像的一些示例:


ERNIE-ViLG 2.0 创作的图像示例:令人震撼的科幻插图杰作,神秘宇宙星辰背景中出现一只巨大的星球, 大场景,无比详细,明暗对比,32k

 

ERNIE-ViLG 2.0 创作的图像示例:凤凰周身火焰,多彩的祥云,明月,cg 感

 

ERNIE-ViLG 2.0 创作的图像示例:用沙尘暴制作的令人敬畏的龙,概念艺术,二次元


ERNIE-ViLG 2.0 创作的图像示例:srudio ghibli 风格,一个巨大的圆月、超现实的超自然村庄,抽象的生物形态建筑、白色,金色


ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景,激发设计者创作灵感,提升内容生产的效率。通过简单的描述,模型便可以在短短几十秒内生成设计图,极大地提升了设计效率、降低商业出图的门槛。


ERNIE-ViLG 2.0 助力视觉内容 AI 大生产


文心 ERNIE-ViLG 2.0 技术揭秘


ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。同时,ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的「降噪专家」网络,从而实现更加细致的降噪任务建模,进而提升生成图像的质量。


ERNIE-ViLG 2.0 架构图


基于语言和图像知识的知识增强算法。为提升生成图像的语义一致性和可控性,百度研究者提出将知识增强算法融入扩散模型学习,在扩散模型学习过程中,引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法,对图文的语义一致性进行针对性学习,进而实现精准的细粒度语义控制。


混合降噪专家网络。针对模型建模能力不足,导致图像质量不够好的问题,百度研究者发现,扩散模型的降噪过程中不同阶段对降噪网络的能力要求不同,初始阶段模型需要从纯随机噪声中生成图像轮廓,结尾阶段对模型的要求变为对图像细节补全,传统方法使用同一网络建模整个降噪过程,模型需要同时满足不同阶段的建模需求。为此,百度研究者提出了针对不同阶段选择不同网络(降噪专家)进行建模的框架,有效地解决了不同阶段对模型能力要求不一致的问题,减少降噪任务的互相干扰,提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成,实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。


文心 ERNIE-ViLG 2.0 刷新 MS-COCO 评测集合最好效果


百度研究者在业内公开文本生成图像权威集合 MS-COCO 上评测了模型效果。相较于业内的其他工作,如 DALL-E 2、Imagen、Parti 等模型,ERNIE-ViLG 2.0 取得了当前最好效果,刷新了该任务的基准( FID 指标代表了模型生成图像的逼真程度,数值越低代表模型越好)。

 

ERNIE-ViLG 2.0 在 MS-COCO 上的效果


除了客观自动评估指标,百度研究者还采用了人工评估方式,从图像保真度和图文相关性两个维度比较了 ERNIE-ViLG 2.0 与 DALL-E 2 以及 Stable Diffusion 的效果。评测人员采用多人盲评的方式,根据评价维度选择表现更好的一方。在图文相关性和图像保真度两个维度上,ERNIE-ViLG 2.0 相对于 DALL-E 2 和 Stable Diffusion 都有较大优势。


ERNIE-ViLG 2.0 人工评估结果


百度研究者还针对 ERNIE-ViLG 2.0 中的知识增强算法和混合降噪专家网络做了进一步效果分析。


其中,基于知识增强算法,ERNIE-ViLG 2.0 展现出对语义更精准的理解,生成结果更加可控,如以下示例中对颜色等物体属性实现精准控制。


ERNIE-ViLG 2.0 与 DALL-E 2 在属性控制方面对比示例


基于混合降噪专家网络,ERNIE-ViLG 2.0 在清晰度和纹理质量方面都取得了显著的提升,对比业界其他模型生成了更加逼真的图像。

 

ERNIE-ViLG 2.0 清晰度对比示例


文心 ERNIE-ViLG 2.0 更懂中国文化、图像创作能力更强


百度研究者构建了近 2 亿高质量中文图文数据对,通过基于知识增强的混合降噪专家建模,ERNIE-ViLG 2.0 具备了强大的中文语义理解能力。下面是 ERNIE-ViLG 2.0 结合了多种不同的风格重新绘制了中国文化相关的元素。




ERNIE-ViLG 2.0 在中国元素相关概念上创作的图像(仙鹤、京剧、青花瓷、建筑、剪纸、凤凰等中国元素)


在动漫创作方面,ERNIE-ViLG 2.0 也有显著的优势,与当下主流的 AI 绘画模型相比,展现出更加惊艳的效果,能够创作精美的动漫人物。

 

ERNIE-ViLG 2.0 创作动漫图像


生成创意图像是 AI 作画的重要应用之一,它能够帮助用户激发想象力、带来创作灵感。ERNIE-ViLG 2.0 能够根据文字描述,精准地生成现实世界没有的具有创造性的图像。

 



ERNIE-ViLG 2.0 生成的创意图像


文心 ERNIE-ViLG 2.0 开放服务


值得注意的是,早在今年 8 月,ERNIE-ViLG 2.0 模型通过 API 服务方式开放公测,一经上线,便受到了国内外广大开发者和爱好者广泛关注。其中,讨论度最高的是 ERNIE-ViLG 2.0 在中国元素和二次元相关的创作中,效果远超其他 AI 作画模型。有网友评价: 「最先进的 AI 动画生成技术在中国」。


除此之外,ERNIE-ViLG 2.0 展现出来的图像质量、美感度也获得了国外网友比较高的评价。



开发者和科技爱好者可以通过 ERNIE-ViLG 2.0 的 API 调用入口直接体验该模型的技术效果,并灵活方便地集成到产品中。同时,基于 ERNIE-ViLG 2.0 大模型,百度也推出了 AI 作画产品—— AI 艺术与创意辅助平台:文心一格(yige.baidu.com),以满足更广泛人群在 AI 作画方面的需求。


结语


生成式 AI 技术是最近的热门话题,伴随着大量应用的落地,AI 生成文字、图片、视频等内容也渐渐走入了人们的日常。ERNIE-ViLG 2.0 等 AI 作画大模型的推出,将进一步加速 AI 辅助视觉内容创作与生产时代的来临。


作为百度文心大模型「家族」重要一员,ERNIE-ViLG 2.0 也代表着百度在 AIGC 领域迈出坚实步伐,从技术自主创新和加速产业应用方面持续推动中国 AI 发展。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产AI作画神器来了!日增5万用户的背后有什么秘诀?突发!刚刚,1800亿大白马闪崩跌停!宁王再创新低,科创板新股中一签赚超6万【招募】北京月嫂见面会来了!10.30来现场Pick您的神仙月嫂吧!最后一天!Costco买$3000送$500来了!巴黎凡尔赛游记 (二)股市接连回调,年内近八成权益新基金出现亏损!机构发声:A股中长期向好的趋势不变AIGC奇点降临丨国产AI作画神器来了!日增5万用户的背后有什么秘诀?周杰伦正版授权手办夜灯,复古麦克风造型文艺浪漫,带你穿越百年时空使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群【风味信箱】消费股中有没有可关注的方向?听头条丨国产车掀起一场MPV革命本季最强圣安娜风,今晚起席卷南加州!明天风力最强,时速55英里!新西兰自驾: 千层饼岩和最后印象最想吃的还是家常菜除了作画、写歌、写文章,AI大模型还能帮我们做什么?| Q推荐歼20来了!沉浸式体验地面启动原声LG 27” Full HD IPS Monitor | 27MP68VQ (workingno power adapter)「元宇宙第一股」市值跌去76%,Roblox的热风,凉了?正面刚Dior的新国风、LOGO变绿的零碳餐厅...国风&公益如何旧瓶装新酒? | 灵感案例首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代当AI数字人遇上少年中国风,一场属于视听行业的变革悄然已至大温最强中餐连锁,不同以往的新店首次公开!22号全场⑧折!不折也很便宜了。。。新股中签资金被冻结,弃购不成谁担责?投服中心:擅自冻结资金,券商有责任生鲜第一股、奢侈品第一股、AI教育第一股……统统败走了美国股市内资八大|BDO International Tax Intern招聘已开启!熟练使用办公软件者优先考虑美国高增长科技股中被「误杀」的两只个股:ServiceNow、Cloudflare回锅肉减肥法​不再受愚弄!法国率先揭竿而起,在欧洲掀起一场反美运动出海SLG大佬,终于拿出了一款二次元SLG?PyTorch 2.0来了!100%向后兼容,一行代码将训练提速76%!腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型百强中国百亿潜力企业总价值1.4万亿元!《2022欧赛斯·胡润百亿潜力品牌榜》重磅发布「多语言图像描述」最强评估基准XM3600来了!涵盖36种语言人与人不同
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。