如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享
人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。
视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程。视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射,这是一项充满意义和挑战的工作,根据解码难度和目标的不同可以划分为刺激分类、刺激检索与刺激重建。其中,刺激重建旨在将人脑的神经活动转化为人类可理解的图像或视频,以实现对思维和感知的破译,其方法是直接通过给定的 fMRI(功能性磁共振成像)信号生成图像,并且要求其形状、位置、朝向等细节与对应刺激图像对齐。
之前的一些研究在手写数字、字母、人脸等简单视觉刺激的解码重建方面取得了一定的进展,但是其重建结果在位置、朝向等结构信息上不可控、且缺乏明确的语义信息,难以辨别。
近期,借助多模态预训练大模型(如 CLIP)与生成能力更强的 AI 模型(如 Stable Diffusion),中国科学院自动化研究所的的脑信息解码工作得到了语义明确且与原图更接近的重建图像。
具体来说,他们收集了「脑-图-文」三模态数据集,并将大脑、视觉和语言知识相结合,通过多模态变分自编码(VAE)学习的方式,首次实现了从人类脑活动记录中零样本地解码视觉新类别,相关论文已发表在人工智能领域顶级期刊 IEEE TPAMI(参见《TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型》)。
中国科学院自动化研究所研究人员提出的 「脑 - 图 - 文」三模态联合学习框架,简称 BraVL。
此外,他们还借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser,相关论文已被国际多媒体大会 ACM MM 2023 接收(参见《扩散模型「读脑术」,自动化所 MindDiffuser 清晰重建人脑视觉画面 》)。
这些研究结果表明了一些有趣的结论和认知洞见:
从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;
使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;
视觉感知可能伴随着语言影响来表示视觉刺激的语义;
该研究取得了目前最优的图像重建结果。
这些研究为理解大脑中的语义信息处理机制、发展恢复视觉功能的方法以及辅助脑机接口系统设计等方面提供了潜在的应用价值。
为了让大家更好地了解这些研究成果,机器之心将于北京时间 8 月 29 日 19:00-20:00 邀请两项研究的第一作者、中国科学院自动化所副研究员杜长德,在机器之心机动组微信视频号上进行技术分享。
分享主题:AI 读脑:生成式模型驱动的脑信息解码与视觉重建
嘉宾简介
杜长德,中国科学院自动化所副研究员,从事脑认知与人工智能方面的研究,在包括 Cell 旗下子刊 iScience、TPAMI、AAAI、KDD 等发表论文 40 余篇。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。
个人主页:https://changdedu.github.io/
直播间:关注机器之心机动组视频号,立即预约直播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
参考链接:
TPAMI 论文地址:https://ieeexplore.ieee.org/document/10089190
TPAMI 代码地址:https://github.com/ChangdeDu/BraVL
“脑-图-文” 三模态数据地址:https://figshare.com/articles/dataset/BraVL/17024591
MindDiffuser 论文地址:https://arxiv.org/pdf/2308.04249.pdf
MindDiffuser 代码地址:https://github.com/ReedOnePeck/MindDiffuser
微信扫码关注该文公众号作者