AI读心升级版！NUS、港中文华人团队新作，高清视频1秒生成，准确率超SOTA 45%

2023-06-14 04:06

编辑：Joey

现在，AI不仅会读脑，还能用大脑信号生成视频！

之前的研究只能通过脑部信号重建静态图像，但还不能以视频形式恢复连续性视觉体验。

这次来自新加坡国立大学和香港中文大学的两位在读博士生提出了一个名叫MinD-Video的AI模型，它可以根据收集的fMRI数据重建任意帧速率的高质量视频。

他们表示，模型在语义分类任务中的平均准确率为85%，在结构相似性指数 (SSIM) 中的平均准确率为0.19，比之前的SOTA还高出了45%。

论文地址：https://arxiv.org/pdf/2305.11675.pdf

项目地址：https://mind-video.com/

值得一提的是，这次的MinD-Video模型是之前他们的另一项成果MinD-Vis（利用fMRI数据生成图像）的升级版，当时MinD-Vis还登上了CVPR2023。

从重建图像到视频难在哪

从静止图像到视频的难点在于，视频是场景、动作和物体的连续、多样的信息流。

每次fMRI扫描本质上代表了快照期间大脑活动的「平均值」，而典型的视频每秒大约有30帧(FPS)。

那么如果一个fMRI帧需要2秒，那么在这段时间内60个视频帧——可能包含各种对象、运动和场景变化被呈现为视觉刺激。

因此，以远高于fMRI时间分辨率的FPS解码fMRI和恢复视频是一项复杂的任务。

他们在论文中指出了从图像重建到视频重建要跨越的三座大山：

模型设计

具体来说，MinD-Video模型由「fMRI编码器」和「加强版Stable Diffusion模型」两个模块构成，两个模块分开训练然后一起进行微调（finetuning）。

fMRI编码器在大规模数据集上训练，然后在目标数据集上通过对比学习进行微调，而基于Stable Diffusion的视频生成模块使用文本条件从目标数据集中的视频进行训练。

第一步是对收集的fMRI数据进行图像编码处理，通过第一个模块中的多个阶段获得对语义空间的更深入理解。

首先，我们利用大规模无监督学习（ large-scale unsupervised learning）和脑部掩码建模（masked brain modeling）来学习一般视觉fMRI特征。

接下来，第一个模块中的编码器将预处理后的fMRI传输到Embedding，用作视频生成的条件。

我们使用注释数据集的多模态提取与语义相关的特征，通过对比学习在CLIP空间中训练fMRI编码器。

在第二个模块中，学习的特征通过与Stable Diffusion视频生成模型的协同训练进行微调。

在视频重建中，我们将语义定义为视频中的动物、人和场景动态，例如正在跑动的人和快速移动的场景。

尽管fMRI的时间分辨率较低，但它包含足够的信息来恢复上述语义，下图显示了使用我们的方法重建帧的几个示例。

更重要的是，跑步、跳舞、唱歌等动作，以及人物特写、快动作、远景等场景动态，都可以实现正确重建。

这一结果也反映在我们的数值指标中，它同时考虑了帧语义和视频语义，包括各种类别的运动和场景。

另外，他们将生成的视频与多个之前的类似模型进行了对比，MinD-video可以生成具有更多语义意义内容的高质量视频。

关于AI重现大脑画面的研究，这不是首次。

在11年，UC伯克利的一项研究使用功能磁共振成像（fMRI）和计算模型，初步重建了大脑的「动态视觉图像」。

也就是说，研究者重现了人类大脑看过的片段，但几乎是无法辨认。

而这次虽说准确度和清晰度高了不少，但离真正的AI读心还有很长的路要走。

参考资料：

https://futurism.com/the-byte/ai-generates-video-brain-signals

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq