Redian新闻
>
扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略

公众号新闻


©作者 | 好困 桃子

来源 | 新智元



过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。


Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务?

近期,来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案:利用扩散模型处理视觉感知任务。团队的关键洞察是引入可学习的元提示(meta prompts)到预训练的扩散模型中,以提取适合特定感知任务的特征。

论文标题:

Harnessing Diffusion Models for Visual Perception with Meta Prompts

论文地址:

https://arxiv.org/abs/2312.14733

代码地址:

https://github.com/fudan-zvg/meta-prompts



技术介绍

团队将 text-to-image 扩散模型作为特征提取器应用于视觉感知任务中。

输入图像首先通过 VQVAE 编码器 进行图像压缩。这一步将图像分辨率降低到原始大小的 1/8,产生 latent space 中的特征表示,即 。值得注意的是,VQVAE 编码器的参数是固定的,不参与后续训练。
接下来,保持未添加噪声的 被送入到 UNet 进行特征提取。为了更好地适应不同任务,UNet 同时接收调制的 timestep embeddings 和多个 meta prompts,产生与 形状一致的特征。
在整个过程中,为了增强特征表达,该方法进行了 步的 recurrent refinement。这使得 UNet 内不同层的特征能够更好地交互融合。在第 次循环中,UNet 的参数由特定的可学习的时间调制特征 调节。
最终,UNet 生成的多尺度特征输入到专门为目标视觉任务设计的解码器 中。


可学习的元提示(meta prompts)设计

Stable diffusion model 采用 UNet 架构,通过交叉注意力将文本提示融入图像特征中,实现了文生图。这种整合确保了图像生成在语境和语义上的准确性。 
然而,视觉感知任务的多样性超出了这一范畴,因为图像理解面临着不同的挑战,往往缺乏文本信息作为指导,使得以文本驱动的方法有时显得不切实际。 
为应对这一挑战,技术团队的方法采用了更为多样的策略——不依赖外部文本提示,而是设计了一种内部的可学习元提示,称为 meta prompts,这些 meta prompts 被集成到扩散模型中,以适应感知任务。

Meta prompts 以矩阵 的形式表示,其中 表示 meta prompts 的数量, 表示维度。具备 meta prompts 的感知扩散模型避免了对外部文本提示的需求,如数据集类别标签或图像标题,也无需预训练的文本编码器来生成最终的文本提示。
Meta prompts 可以根据目标任务和数据集进行端到端的训练,从而为去噪 UNet 建立特别定制的适应条件。这些 meta prompts 包含丰富的、适应于特定任务的语义信息。比如:
在语义分割任务中,meta prompts 有效地展示了对类别的识别能力,相同的 meta prompts 倾向于激活同一类别的特征。


在深度估计任务中,meta prompts 表现出对深度的感知能力,激活值随深度变化,使 prompts 能够集中关注一致距离的物体。

在姿态估计中,meta prompts 展现出一套不同的能力,特别是关键点的感知,这有助于人体姿态检测。

这些定性结果共同突显了技术团队提出的 meta prompts 在各种任务中对任务相关激活能力的有效性。作为文本提示的替代品,meta prompts 很好地填补了了 text-to-image 扩散模型与视觉感知任务之间的沟壑。
基于元提示的特征重组

扩散模型通过其固有的设计,在去噪 UNet 中生成多尺度特征,这些特征在接近输出层时聚焦于更细致、低级的细节信息。虽然这种低级细节对于强调纹理和细粒度的任务来说足够,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。 

因此,不仅需要生成丰富的特征,确定这些多尺度特征的哪种组合方式可以为当前任务提供最佳表征也非常重要。这就是 meta prompts 的作用所在—— 这些prompts 在训练过程中保存了与所使用数据集特定相关的上下文知识。这种上下文知识使 meta prompts 能够充当特征重组的过滤器,引导特征选取过程,从 UNet 产生的众多特征中筛选出与任务最相关的特征。 

团队使用点积的方式将 UNet 的多尺度特征的丰富性与 meta prompts 的任务适应性结合起来。

考虑多尺度特征 ,其中每个 表示特征图的高度和宽度。Meta prompts 。每个尺度上重排的特征 的计算为:
最后,这些经过 meta prompts 过滤的特征随后输入到特定任务的解码器中。
基于可学习的时间调制特征的recurrent refinement
在扩散模型中,添加噪声然后多步去噪的迭代过程构成了图像生成的框架。受此机制的启发,技术团队为视觉感知任务设计了一个简单的 recurrent refinement过程——没有向输出特征中添加噪声,而是直接将 UNet 的输出特征循环输入到 UNet 中。 
同时为了解决随着模型通过循环,输入特征的分布会发生变化但 UNet 的参数保持不变的不一致的问题,技术团队对于每个循环引入了可学习的独特的 timestep embeddings,以调制 UNet 的参数。这确保了网络对于不同步骤中输入特征的变化性保持适应性和响应性,优化了特征提取过程,并增强了模型在视觉识别任务中的性能。

结果显示,该方法在多个感知任务数据集上都取得了最优。


应用落地和展望

该文章提出的方法和技术有广泛的应用前景,可以在多个领域内推动技术的发展和创新:
1. 视觉感知任务的改进:该研究能够提升各种视觉感知任务的性能,如图像分割、深度估计和姿态估计。这些改进可应用于自动驾驶、医学影像分析、机器人视觉系统等领域。
2. 增强的计算机视觉模型:所提出的技术可以使计算机视觉模型在处理复杂场景时更加准确和高效,特别是在缺乏明确文本描述的情况下。这对于图像内容理解等应用尤为重要。
3. 跨领域应用:该研究的方法和发现可以激励跨领域的研究和应用,比如在艺术创作、虚拟现实、增强现实中,用于提高图像和视频的质量和互动性。
4. 长期展望:随着技术的进步,这些方法可能会进一步完善,带来更先进的图像生成和内容理解技术。


团队介绍

智能创作团队是字节跳动 AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纪念净空老法师一份遗书,四个人背诵转达扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力遗传性耳聋有望根治!复旦团队全球首个基因疗法登上柳叶刀,为治疗先天性遗传性耳聋9型(DFNB9)开辟新路径!《幸福永相随》&《数羊》GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器红色日记 学农基地 4.21-30扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPUEMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值相聚多伦多(二十四) 美丽中国年LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。