Redian新闻
>
哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型

哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型

公众号新闻

整理 | 傅宇琪

只需轻轻一点,静态的皮卡丘就会露出灿烂笑容:

咖啡会源源不断地冒出热气:

漂亮姐姐会朝你眨眼:

以上这些效果,均来自一个新的图生视频模型 Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。

这个模型使用起来也非常简单:

把任意一张照片输入模型👉点击想选中的区域👉加上少量简单的提示词(如:动作、神态等)👉图片中原本静态的区域就能动起来。

相关研究论文已经在 arXiv 上公开,GitHub 上也放出代码,目前已经揽星 440+。

论文链接:https://arxiv.org/pdf/2403.08268.pdf

代码链接:https://github.com/mayuelala/FollowYourClick

哪里要动点哪里

通过进一步测试,可以发现 Follow-Your-Click 能够精准控制画面的动态区域。

点击画面主体,它就能够控制火箭发射和汽车行驶:

也能够生成“大笑”、“生气”、“震惊”的表情:

同样是鸟图,点击小鸟,输入“摇头”、“扇翅膀”、“跳舞”,都能得到相应更精确的动作:


总之,就是想要哪里动,就点哪里。

研究团队还将 Follow-Your-Click 和其他视频生成模型进行了同题对比,以下是实验效果:

那么,这是怎么做到的呢?

“一键点、万物动”如何实现?

当前的图生视频大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。

另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性上有所欠缺。

Follow-Your-Click,尝试着解决这些问题。

在实现方式上,Follow-Your-Click 首先采纳了图像语义分割工具 Segment-Anything,将用户的点击操作转化为二进制区域 Mask,并将其作为网络运行的条件之一。

为了更有效地捕捉时间相关性并提升学习效果,团队引入了一种高效的首帧掩模策略。这一策略提高了模型生成视频的质量,而且有助于处理畸变和首帧重构。

为赋予模型更强的文字驱动能力,特别是在响应简短提示词方面,研究团队构建了一个名为 WebVid-Motion 的数据集。该数据集通过大模型筛选和标注视频标题,着重强调人类情感、动作以及常见物体的运动,从而提升了模型对动词的响应和识别能力。

联合研究团队还打造了一个运动增强模块,这一模块不仅与数据集融合,更能够强化模型对运动相关词语的响应能力,使其理解并响应简短的提示指令。

为了实现对运动速度的准确学习,研究团队还提出了一种基于光流的运动幅度控制,使用光流模长作为新的视频运动幅度控制参数。

通过以上这些新提出的方法,加上各模块的组合,Follow-Your-Click 大大提升了可控图生视频的效率和可控性,最终实现了用简单文本指令来实现图像局部动画。

不过,由于动作的复杂性和相关训练样本的稀缺,目前,模型对于“生成大型复杂人体动作”仍然存在局限性:当想让保持体操动作的雕塑“休息休息”时,哥们放下的腿直接无痛“截肢”了。

Follow-Your-Click 联合项目组中的腾讯混元大模型团队,已经作为技术合作伙伴,支持了《人民日报》的原创视频《江山如此多娇》。

不得不说,2024 年的多模态领域是真卷啊……

参考链接:https://follow-your-click.github.io/

 内容推荐

InfoQ 独家邀请了潞晨科技创始人兼董事长尤洋,从技术原理、复现路径和实际应用成本考量三方面深入解读 Sora 技术和应用可行性。本次技术解读共包含Sora 的技术原理和关键组成、快速复现和集成 Sora 的指南、成本效益和实际应用考量三个核心要点,帮助大家理解 Sora 的核心技术、快速实现和集成 Sora 到自己的项目中,并提供考虑成本效益和实际应用的指导。关注「AI前线」,回复「Sora解读」获取解读视频及文字资料。

今日荐文


刚刚!马斯克履约开源Grok,超越Llama成全球最大开源模型,却被怀疑是作秀?!


零一万物刷榜遭怒怼:面向投资人编程;315锤AI诈骗:假老板骗走员工186万;知识星球屏蔽 ChatGPT、Sora| AI周报


身价7亿的周受资也没辙了?TikTok 弹窗1.7 亿用户强势反击,国会一分钟20个电话被打爆


苹果终于入局大模型了:300亿参数、MoE 架构,手机要迎来全面的大变革了?


OpenAI Sora发布时间定档,可能允许“裸体”内容出现

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英文作者会描述一个景物叙事的双重比喻AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力特斯拉,被调查;麦当劳就侮辱性文字骂顾客一事致歉;小米高管否认雷军被李想锁车里;中国首个Sora级视频大模型发布...浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug对话百图生科蒋昭实博士:首批管线临床前数据达预期,推出免疫治疗工具箱背景提升学员|喜报!港中文、港科大、悉尼大学、曼彻斯特大学、伦敦大学国王学院、布里斯托大学、南加州大学offer来了!腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法AI早知道|科大讯飞星火认知大模型 V3.5发布;Midjourney V6动漫微调模型上线AI早知道|字节跳动推出超高清文生视频模型;SVD的Web平台发放测试资格;苹果计划收购 Brighter AI618淘宝京东均取消预售机制;中国首个Sora级视频大模型发布;周鸿祎将举办线下拍卖会出售迈巴赫丨邦早报背景提升学员|喜报!新国立、康奈尔、港大、哥大、约翰霍普金斯、港科大、华威、圣路易斯华盛顿offer来了!童年故事(35):小镇钟表匠写小说,还是回忆录?Cell Press联合清华大学主办,重磅嘉宾演讲内容剧透!摘要征集截至2月6号拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet清华系出手,推出全面对标Sora的视频大模型贾跃亭炮轰高合汽车是行业耻辱;清华大学辟谣土木工程专业停招;理想汽车年营收突破千亿元;首部文生视频AI动画片开播|邦早报不明白播客:大选前夜体验台湾民主的细节哪里要搜圈哪里,circle to search就是谷歌眼里搜索的终极形态?向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象负笈不敌温柔乡(1)清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!商汤甩出大模型豪华全家桶!秀拳皇暴打GPT-4,首晒“文生视频”,WPS小米现场助阵破解大模型安全难题,360推出大模型安全能力框架AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。