Redian新闻
>
AI绘图模型不会写字的难题,被阿里破解了

AI绘图模型不会写字的难题,被阿里破解了

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

能准确写汉字的AI绘图工具,终于登场了!

包括中文在内一共支持四种语言,而且还能文字的位置还能任意指定。

从此,人们终于可以和AI绘图模型的“鬼画符”说再见了。

这款名为AnyText的绘图工具来自阿里巴巴,可以按照指定位置精准地向图中加入文字。

此前的绘图模型普遍无法准确地向图中添加文字,即便有也很难支持像中文这样结构复杂的文字。

而目前Anytext支持中英日韩四种语言,不仅字形准确,风格也可以与图片完美融合。

除了可以在绘制时加入文字,修改图片中已有的文字,甚至向其中加字也都不是问题。

究竟AnyText效果如何,我们也实际体验了一番。

各种风格轻松驾驭

官方在GitHub文档中提供了AnyText的部署教程,也可以在魔搭社区中体验。

此外还有网友制作了PyTorch笔记,可以在本地或Colab中一键部署,我们采用的也是这种方式。

AnyText支持中英文Prompt,不过从程序日志来看,中文提示词会被自动翻译成英文。

比如我们想让AnyText给马斯克换上一件白色T恤,让他来给量子位(QbitAI)打个call。

只需要输入提示词,然后设定文本的位置,然后直接运行就可以了。

如果需要调整尺寸等参数,可以将上方的菜单展开;如果不会操作,页面中还附有中英双语教程。

最终,在搭载V100的Colab上,AnyText用了10多秒绘制出了四张图片。

效果还是不错的,不论是图本身还是文字,看上去都没有什么破绽。

而且各种文字材质AnyText都能准确模仿,比如黑板上的粉笔字,甚至是传统书法……

街景中的文字,甚至是电商促销海报,都难不倒AnyText。

而且不仅是平面上各式各样的文字,立体风格同样也不在话下。

而其中的文本编辑功能,还可以修改已有图片中的文字,几乎不会留下破绽。

在测试当中,AnyText也是取得了不错的成绩——无论是中英文,准确度都显著高于ControlNet,FID误差也大幅减少。

此外,如果自行部署,还可以对字体进行自定义,只需准备好字体文件并对代码简单修改就可以了。

那么,研究人员是怎样让AnyText学会写字的呢?

文本渲染独立完成

AnyText是基于扩散模型开发的,主要分为两个模块,文字生成的过程是相对独立的。

这两个模块分别是隐空间辅助模块文本嵌入模块

其中,辅助模块对字形、文字位置和掩码这三种信息进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;

文本嵌入模块则将描述词中的语义部分与待生成文本部分解耦,使用图像编码模块单独提取字形信息后,再与语义信息做融合。

在实际工作过程中,嵌入的文本输送给绘图模块时被用星号代替,在嵌入空间预留位置并用符号填充。

然后文本嵌入模块得到的字形图像被输入预训练OCR模型,提取出字形特征,然后调整其维度并替换预留位置中的符号,得到新的序列。

最后,这个序列表示被输入到CLIP的文本编码器中,形成最终指导图像生成的指令。

这种“分而治之”的方式,既有助于文字的书写精度,也有利于提升文字与背景的一致性。

此外,AnyText还支持嵌入其他扩散模型,为之提供文本生成支持。

论文地址:
https://arxiv.org/abs/2311.03054

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生活的难题,每个人都有自己的解法 | 人间日签腾讯阿里破冰:闲鱼内测微信小程序 还可用微信支付道路危机!新州政府邀请专家破解道路安全难题,新措施酝酿中我们尝试着给鲍鱼测心跳,没想到解决了一个困扰渔民多年的难题Science | 闫建斌/雷晓光破解紫杉醇生物合成的难题《瞭望》专访曲青山:坚持问题导向 破解发展难题卢伟冰将任小米总经理,特斯拉在北美大范围召回,盒马否认被阿里出售,冻雨导致39趟列车停运,这就是今天的其他大新闻!盒马的难题谁是你的同党!对发型不满意,被“Tony”老师捅死?警方回应中国留学生被骗1亿,新型诈骗套路被我们破解了大国移民解决不了的难题,不妨试试“他”被阿里裁员了!拿了50w赔偿,回家过年了!大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|早起看早期中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了如何破解芯片量产测试难题,促进中国半导体产业高速发展倒计时两天丨谁能破解大湾区精英家庭国际教育难题?看这里!攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析一位看到上海万圣节的中年阿姨说:好想哭,又看到人了。晚点财经丨拼多多市值被阿里反超;美国想知道谁用它的基建训练 AI父母教育孩子最大的难题?元春省亲最温情的部分?新旧文明社会制度的生死搏斗国内高中转轨学习A-level,但是新的难题接踵而来... ...​女老师因开会写材料过多而自杀后,领导要求所有老师开会写材料大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|36氪首发以色列和哈马斯的地道战为什么可怕?大国移民解决不了的难题,不妨试试“他”!年终总结不会写?给你点思路!Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测CSC2023|吴以岭教授:破解微血管病变国际难题,络病理论创新转化谱写中医药现代化新篇章智己 LS6 低价出击,想做高端的国产品牌,都有一个活下去的难题我们尝试给鲍鱼测心跳,没想到解决了困扰渔民多年的难题日活破千万,我们破解了这款手游“逆生长”的密码南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式我不会原谅把别人的痛苦当做笑谈的人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。