Redian新闻
>
AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%

AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%

公众号新闻



  新智元报道  

编辑:Joey
【新智元导读】AI读心又迎来升级版,来自新加坡国立大学和香港中文大学的两位博士生开发的模型可从脑信号中重建高质量视频,准确率还比SOTA高45%。

现在,AI不仅会读脑,还能用大脑信号生成视频!

之前的研究只能通过脑部信号重建静态图像,但还不能以视频形式恢复连续性视觉体验。

这次来自新加坡国立大学和香港中文大学的两位在读博士生提出了一个名叫MinD-Video的AI模型,它可以根据收集的fMRI数据重建任意帧速率的高质量视频。


他们表示,模型在语义分类任务中的平均准确率为85%,在结构相似性指数 (SSIM) 中的平均准确率为0.19,比之前的SOTA还高出了45%。

论文地址:https://arxiv.org/pdf/2305.11675.pdf

项目地址:https://mind-video.com/

值得一提的是,这次的MinD-Video模型是之前他们的另一项成果MinD-Vis(利用fMRI数据生成图像)的升级版,当时MinD-Vis还登上了CVPR2023。


从重建图像到视频难在哪

止图像到视频的难点在于,视频是场景、动作和物体的连续、多样的信息流。
每次fMRI扫描本质上代表了快照期间大脑活动的「平均值」,而典型的视频每秒大约有30帧(FPS)。
那么如果一个fMRI帧需要2秒,那么在这段时间内60个视频帧——可能包含各种对象、运动和场景变化被呈现为视觉刺激。
因此,以远高于fMRI时间分辨率的FPS解码fMRI和恢复视频是一项复杂的任务。


他们在论文中指出了从图像重建到视频重建要跨越的三座大山:

  • 在处理动态神经活动时,血液动力学反应会导致时间延迟,这种时间滞后会使准确跟踪大脑对刺激的实时反应变得具有挑战性

  • 我们之前开发的Mind-Vis模型缺乏像素级和语义级的指导,这可能会影响该工具生成准确图像的有效性

  • 在我们的过程中需要增强生成的一致性,同时确保保留一个 fMRI 帧内场景的动态。这种平衡是在一个 fMRI 时间范围内准确稳定重建的关键。

模型设计


体来说,MinD-Video模型由「fMRI编码器」和「加强版Stable Diffusion模型」两个模块构成,两个模块分开训练然后一起进行微调(finetuning)。
fMRI编码器在大规模数据集上训练,然后在目标数据集上通过对比学习进行微调,而基于Stable Diffusion的视频生成模块使用文本条件从目标数据集中的视频进行训练。


第一步是对收集的fMRI数据进行图像编码处理,通过第一个模块中的多个阶段获得对语义空间的更深入理解。

首先,我们利用大规模无监督学习( large-scale unsupervised learning)和脑部掩码建模(masked brain modeling)来学习一般视觉fMRI特征。

接下来,第一个模块中的编码器将预处理后的fMRI传输到Embedding,用作视频生成的条件。

我们使用注释数据集的多模态提取与语义相关的特征,通过对比学习在CLIP空间中训练fMRI编码器。

在第二个模块中,学习的特征通过与Stable Diffusion视频生成模型的协同训练进行微调。

在视频重建中,我们将语义定义为视频中的动物、人和场景动态,例如正在跑动的人和快速移动的场景。

尽管fMRI的时间分辨率较低,但它包含足够的信息来恢复上述语义,下图显示了使用我们的方法重建帧的几个示例。


更重要的是,跑步、跳舞、唱歌等动作,以及人物特写、快动作、远景等场景动态,都可以实现正确重建。

这一结果也反映在我们的数值指标中,它同时考虑了帧语义和视频语义,包括各种类别的运动和场景。


另外,他们将生成的视频与多个之前的类似模型进行了对比,MinD-video可以生成具有更多语义意义内容的高质量视频。


关于AI重现大脑画面的研究,这不是首次。


在11年,UC伯克利的一项研究使用功能磁共振成像(fMRI)和计算模型,初步重建了大脑的「动态视觉图像」。

也就是说,研究者重现了人类大脑看过的片段,但几乎是无法辨认。

而这次虽说准确度和清晰度高了不少,但离真正的AI读心还有很长的路要走。

参考资料:
https://futurism.com/the-byte/ai-generates-video-brain-signals



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一图尽览2023世界超高清视频产业发展大会ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选AI读心重磅突破登Nature!大脑信号1秒被看穿,还能预测未来画面评“刘亚洲为谁殉道”一文能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》|GGViewAI声呐眼镜来了!读懂唇语、隔空操控手机,准确率达95%剧透 | 超高清视频产业高质量发展高峰会嘉宾抢先看AI通灵!类ChatGPT模型解码大脑信息,准确率高达82%做扬州女婿很幸福(1):淮扬早点想明白,看通透,才有好日子过九家国内外权威机构共同发布《超高清视频产业加强国际合作广州倡议》兴证全球基金固收团队新作,兴证全球招益债券型基金6月12日起发行广东:打造超高清视频产业增长极北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%(多图预警)Midjourney整大活!1秒生成美国各州建筑图+人物图,这很难评2023世界超高清视频产业发展大会将于5月8日-10日在广州举行《向着温暖的阳光》&《终于等到你》1942年,汪兆娥投奔汪精卫的照片,满脸得意中国超高清视频产业投融资圆桌会在广州举办再等3天!2023世界超高清视频产业发展大会召开无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准80%代码秒生成!AI神器Copilot大升级,百万开发者动嘴编码5年内成真​The Explorers探索者公司创始人奥利维尔·恰博多:内容是促进超高清视频产业发展的关键因素再等2天!2023世界超高清视频产业发展大会召开能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》剧透 | 2023世界超高清视频产业发展大会开幕演讲嘉宾抢先看​2023世界超高清视频产业发展大会发布104项超高清视频典型应用案例KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖手指水母挑战升级版!2023世界超高清视频产业发展大会直播预告来了!80% 代码秒生成!AI 神器 Copilot 大升级,百万开发者动嘴编码 5 年内成真2023世界超高清视频产业发展大会集中发布重大技术成果
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。