Redian新闻
>
鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验

鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验

公众号新闻
白交 发自 凹非寺
量子位 | 公众号 QbitAI

大厂们在整活方面开始卷起来了!

前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗……

只需上传一张或以上照片,无需额外LoRA训练,就能快速可定制。任何人、任何风格,高保真那种。

于是秒秒钟,LeCun化身钢铁侠。但随后LeCun转发表示:那个文艺复兴时期的绘画风格是他最喜欢的。

杨幂各类风格写真爆出。

除此之外,还有更多有意思的功能,目前应用Demo已免费开放体验。

这就来提前体验一把。

PhotoMaker刷屏

总结来看,PhotoMaker主要有这样三大功能:

第一个,可以根据描述生成多种风格个人照片

比如,你见过这样的黑寡妇吗?

就是在二次元里也行的照片,也可以生成。

第二个,混合不同人物特征,生成全新人物形态

脑洞大开一下,奥特曼和乔布斯“生”的孩子,可能长这样???

甚至还可以破次元结合!

除此之外,还有一些小细节的功能,修改个年龄、性别以及照片年代啥的。

小时候的马斯克,你见过吗?

当LeCun变成几十岁大妈……

目前,研究团队给了两个体验版本:官方原版以及风格化版本。其中风格化版,要想实现更好的效果,仅需要更改基础模型并添加LoRA模块。

不过这两个版本食用起来没有任何区别,主要分为三个步骤。

首先,上传你想定制的照片。一张可以,多张也行。

值得注意的是,他们这里强调了,他们不会进行人脸检测,但上传的图片人脸已经要占据图片大部分。

其次,输入文字提示,确保在要定制的类别词后面加上触发词:img

如:男人 img 或女人 img 或女孩 img。

然后再选择喜欢的样式、风格模版,就可以生成了。

不过现在实测,效果会出的比较慢,可能是太多人使用了。

如何实现?

简单来说,PhotoMaker采用了一种简单而有效的表示方法——堆叠ID嵌入。

它可将多个身份证明(ID)图像的信息合并成统一的数据结构,这样能更好保存单个ID信息的同时,还能整合多个不同ID特征。

具体而言,首先,分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后,通过合并相应的类别嵌入(比如性别)和每个图像嵌入,提取融合嵌入。接着,沿长度维度串联所有融合嵌入,形成堆叠ID嵌入。最后再将其输入到Diffusion Model生成图像。

由于训练过程需要使用按ID分类的数据集,但现有数据集要么没有注释ID信息,要么所包含的场景丰富度有限,比如只关注面部区域。

为此,研究人员还专门构建了一个以ID为导向的文本图像数据集构建管线,它能按照不同ID进行分类。每个ID都有多幅图像,这些图像包括不同的表情、属性、场景等。

需要注意的是,虽然训练过程中使用的是带背景遮蔽的同一ID图像,但在推理过程,可直接输入不同ID、且不带背景遮蔽的图形,来创建新ID。

实验结果表明,与其他方法相比,PhotoMaker具备高质量和多样化的生成能力,以及可编辑性、保真性。

此外,这一方法还能实现更多以往难实现的有趣功能。比如改变年龄或性别、将旧照片或艺术作品中的人物还原到现实中以及身份混合等。

好了,感兴趣的朋友可戳下方链接玩玩~
https://huggingface.co/spaces/TencentARC/PhotoMaker
https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
论文链接:
https://arxiv.org/abs/2312.04461
项目链接:
https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI搜索引擎再吸金5.28亿,英伟达贝佐斯入股,LeCun一众大佬夹道祝贺!网友:干翻谷歌Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentityLeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习《爱国之恋》&《从前说》LeCun 自曝拒绝谷歌研究主管offer!只想专心做研究这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理不愧是你!杨幂的包柜,去年依旧精彩!小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了OpenAI像素级抄袭好莱坞IP,反手开撕《纽约时报》,LeCun舌战网友疑似站队支持开班讲课系列:引言超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观LeCun自曝曾因工资太低拒绝谷歌Offer!如果自己加入,会让谷歌研究文化更开放比ChatGPT早发两周!被喷下线的Galactica成了LeCun最大的意难平...全球科技巨头研发投入大排行!第一名高达5000亿!LeCun表示Meta才是最看重研发的顶流Mamba竟遭ICLR拒稿!AI学者集体破防,LeCun都看不下去了。。。马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力开班讲课系列:简单电工(1)十秒钟生成一只宝可梦,《幻兽帕鲁》AI 抄袭实锤了?免训练!单图秒级别生成AI写真,人像生成进入无需训练的单阶段时代Unity官宣Unity 6引擎,生成式AI工具开放内测,有何看点?LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?体验加勒比海的渐变蓝,墨西哥坎昆7字区,可在酒店与海豚共游 – 全包酒店 Hyatt Ziva Cancun 入住体验红色日记 右倾翻案 2.11-28编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成冲上热搜!杨幂回应三亿对赌传闻董小姐多撒了2个亿ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞6051 血壮山河 卢沟桥之变 20Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4华裔小哥再获融资7360万美元!天才程序员联合创办,LeCun大佬纷纷站台
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。