Redian新闻
>
AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%

AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%

公众号新闻



  新智元报道  

编辑:Joey
【新智元导读】AI读心又迎来升级版,来自新加坡国立大学和香港中文大学的两位博士生开发的模型可从脑信号中重建高质量视频,准确率还比SOTA高45%。

现在,AI不仅会读脑,还能用大脑信号生成视频!

之前的研究只能通过脑部信号重建静态图像,但还不能以视频形式恢复连续性视觉体验。

这次来自新加坡国立大学和香港中文大学的两位在读博士生提出了一个名叫MinD-Video的AI模型,它可以根据收集的fMRI数据重建任意帧速率的高质量视频。


他们表示,模型在语义分类任务中的平均准确率为85%,在结构相似性指数 (SSIM) 中的平均准确率为0.19,比之前的SOTA还高出了45%。

论文地址:https://arxiv.org/pdf/2305.11675.pdf

项目地址:https://mind-video.com/

值得一提的是,这次的MinD-Video模型是之前他们的另一项成果MinD-Vis(利用fMRI数据生成图像)的升级版,当时MinD-Vis还登上了CVPR2023。


从重建图像到视频难在哪

止图像到视频的难点在于,视频是场景、动作和物体的连续、多样的信息流。
每次fMRI扫描本质上代表了快照期间大脑活动的「平均值」,而典型的视频每秒大约有30帧(FPS)。
那么如果一个fMRI帧需要2秒,那么在这段时间内60个视频帧——可能包含各种对象、运动和场景变化被呈现为视觉刺激。
因此,以远高于fMRI时间分辨率的FPS解码fMRI和恢复视频是一项复杂的任务。


他们在论文中指出了从图像重建到视频重建要跨越的三座大山:

  • 在处理动态神经活动时,血液动力学反应会导致时间延迟,这种时间滞后会使准确跟踪大脑对刺激的实时反应变得具有挑战性

  • 我们之前开发的Mind-Vis模型缺乏像素级和语义级的指导,这可能会影响该工具生成准确图像的有效性

  • 在我们的过程中需要增强生成的一致性,同时确保保留一个 fMRI 帧内场景的动态。这种平衡是在一个 fMRI 时间范围内准确稳定重建的关键。

模型设计


体来说,MinD-Video模型由「fMRI编码器」和「加强版Stable Diffusion模型」两个模块构成,两个模块分开训练然后一起进行微调(finetuning)。
fMRI编码器在大规模数据集上训练,然后在目标数据集上通过对比学习进行微调,而基于Stable Diffusion的视频生成模块使用文本条件从目标数据集中的视频进行训练。


第一步是对收集的fMRI数据进行图像编码处理,通过第一个模块中的多个阶段获得对语义空间的更深入理解。

首先,我们利用大规模无监督学习( large-scale unsupervised learning)和脑部掩码建模(masked brain modeling)来学习一般视觉fMRI特征。

接下来,第一个模块中的编码器将预处理后的fMRI传输到Embedding,用作视频生成的条件。

我们使用注释数据集的多模态提取与语义相关的特征,通过对比学习在CLIP空间中训练fMRI编码器。

在第二个模块中,学习的特征通过与Stable Diffusion视频生成模型的协同训练进行微调。

在视频重建中,我们将语义定义为视频中的动物、人和场景动态,例如正在跑动的人和快速移动的场景。

尽管fMRI的时间分辨率较低,但它包含足够的信息来恢复上述语义,下图显示了使用我们的方法重建帧的几个示例。


更重要的是,跑步、跳舞、唱歌等动作,以及人物特写、快动作、远景等场景动态,都可以实现正确重建。

这一结果也反映在我们的数值指标中,它同时考虑了帧语义和视频语义,包括各种类别的运动和场景。


另外,他们将生成的视频与多个之前的类似模型进行了对比,MinD-video可以生成具有更多语义意义内容的高质量视频。


关于AI重现大脑画面的研究,这不是首次。


在11年,UC伯克利的一项研究使用功能磁共振成像(fMRI)和计算模型,初步重建了大脑的「动态视觉图像」。

也就是说,研究者重现了人类大脑看过的片段,但几乎是无法辨认。

而这次虽说准确度和清晰度高了不少,但离真正的AI读心还有很长的路要走。

参考资料:
https://futurism.com/the-byte/ai-generates-video-brain-signals



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
再等3天!2023世界超高清视频产业发展大会召开CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选2023世界超高清视频产业发展大会集中发布重大技术成果广东:打造超高清视频产业增长极KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖再等2天!2023世界超高清视频产业发展大会召开80%代码秒生成!AI神器Copilot大升级,百万开发者动嘴编码5年内成真​2023世界超高清视频产业发展大会发布104项超高清视频典型应用案例3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》|GGViewICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络Java 近期新闻:字符串模板、Quarkus、Open Liberty、PrimeFaces、JobRunr、Devnexus北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%AI声呐眼镜来了!读懂唇语、隔空操控手机,准确率达95%(多图预警)Midjourney整大活!1秒生成美国各州建筑图+人物图,这很难评剧透 | 超高清视频产业高质量发展高峰会嘉宾抢先看AI通灵!类ChatGPT模型解码大脑信息,准确率高达82%剧透 | 2023世界超高清视频产业发展大会开幕演讲嘉宾抢先看评“刘亚洲为谁殉道”一文想明白,看通透,才有好日子过《向着温暖的阳光》&《终于等到你》CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选2023世界超高清视频产业发展大会直播预告来了!1942年,汪兆娥投奔汪精卫的照片,满脸得意戴着苹果Vision Pro打麻将!NTU微软华人团队联手打造Otter-E,专为AR头显设计无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成80% 代码秒生成!AI 神器 Copilot 大升级,百万开发者动嘴编码 5 年内成真一图尽览2023世界超高清视频产业发展大会兴证全球基金固收团队新作,兴证全球招益债券型基金6月12日起发行中国超高清视频产业投融资圆桌会在广州举办手指水母挑战升级版!能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》做扬州女婿很幸福(1):淮扬早点2023世界超高清视频产业发展大会将于5月8日-10日在广州举行AI读心重磅突破登Nature!大脑信号1秒被看穿,还能预测未来画面
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。