Redian新闻
>
扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面

扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面

公众号新闻
机器之心专栏
机器之心编辑部

从脑信号中重建相应的视觉刺激都是一项有意义且充满挑战性的工作,先前已经有研究成功得到了与原图结构相近的重建结果,如:一些自然图像的轮廓、大小,但是缺乏明确的语义信息,难以辨别。


近年来,借助多模态预训练大模型与生成能力更强的 AI ,不少工作都得到了在语义上与原图十分接近的重建图像,但这些图像在位置、朝向等结构信息上不可控。


为了同时解决以上两个问题,中科院自动化所的卢一卓、杜长德等人借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser,相关论文已被国际多媒体大会 ACM MM 2023 接受。结果表明,本文提出的模型的重建结果已超过目前最优的模型。可视化结果也证明了本文的模型设计在神经生物学上的可解释性。



  • 论文地址:https://arxiv.org/pdf/2308.04249.pdf

  • 代码地址:https://github.com/ReedOnePeck/MindDiffuser


第一行为原图,第二行为从大脑 fMRI 信号中重建图像


研究背景


人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。


视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程,视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射,根据解码难度和目标的不同,可以把它们划分为刺激分类、刺激识别与刺激重建。在刺激分类中,大脑活动被用来预测所呈现刺激的离散客体类别。刺激识别的目的是从一组已知的刺激图像中识别出与给定的大脑活动模式相对应的特定刺激。刺激重建则是要直接通过给定的 fMRI 信号生成图像,并且要求其形状、位置、朝向等细节与对应刺激图像对齐。本研究专注于研究刺激重建。


在详细调研图像重建领域已有的研究后,根据其模型结构,作者把目前的图像重建范式归纳为:生成式模型和优化式模型。 



生成式模型在训练阶段,提取刺激图像和相应文本描述的特征,利用相应的脑响应去拟合这些特征,在测试阶段,用脑响应预测出对应的特征,将其输入训练好的生成模型,即可重建出对应的图像刺激。



优化式模型在训练阶段提取刺激图像的层次特征并用相应的脑响应去拟合,在测试阶段,首先随机初始化生成模型的隐空间,并且提取出随机生成的初始图像的层次特征,接着把脑响应预测出的对应的层次特征作为约束,通过反向传播优化隐空间,最终得到收敛的重建图像。


目前这两种重建范式都各自存在一些问题,针对以上问题本研究提出了一个新的框架来解决他们。


可控图像重建模型 ——MindDiffuser



如图 (a) 所示,首先提取出图像的 CLIP 视觉特征,VQVAE 特征,以及对应的文本描述特征,接着使用相应的脑信号去拟合这三种特征。然后通过两个阶段来实现图像重建任务。接下来将详细地介绍这两个阶段。


在阶段一,首先利用脑信号解码出 VQVAE 特征,将其通过一个前向扩散过程隐式的为扩散模型隐空间注入图像信息,接着在反向去噪过程中通过交叉注意力机制引入脑信号解码出的 CLIP 文本特征,至此完成了对重建图像的语义信息融合。


在阶段二,为了进一步对齐重建图像的结构信息,研究人员以 CLIP 图像特征为约束,通过反向传播梯度不断调整扩散模型的隐空间,得到语义和结构都与原图对齐的重建结果。


实验结果




作者在目前规模最大的神经影像数据集 NSD 上进行了详细的实验,在四种评价指标上的结果表明,提出的 MindDiffuser 重建出的图像与原图无论在语义相似度,还是结构相似度上都超过了目前的 sota 模型。


由于不同个体的大脑在解剖结构和功能连接上有着差异 [61],因此即使给不同的被试观看相同的图像刺激,采集到的 fMRI 信号也不同,为了验证本文提出的图像重建模型可以适应不同被试间的差异,研究团队在不加任何其他额外调整的情况下,对被试 1、2、5、7 的测试集图像进行了重建,结果如下图所示: 



从图 4-13 中可以看出对于相同的刺激图像,由于不同的被试在采集 fMRI 信号时的大脑主观反应以及特征解码阶段的准确率有差异导致一些图像的重建结果并不令人满意,比如:被试 7 把 “桌子上的花” 错误的重建为 “桌子和椅子”,被试 5 无法重建出 “黄昏下的飞机”。但是大部分重建出来的图像对于研究人员选取的每一个被试在语义与结构上都表现出了与原图较好的对齐,这表明他们提出的图像重建模型可以很好的适应不同被试间的差异。


在特征解码阶段,本文使用 L2 正则化的线性回归模型自动挑选体素来拟合三种特征:语义特征 c,细节特征 z,结构特征 zCLIP,为了验证提出的模型在神经科学上的可解释性,本文将 fMRI 每个体素在预测不同特征时的权重投影到展开的大脑皮层上。


从图 (a) 中可以看出在解码语义特征 c 的时候,被筛选出来的体素绝大多数集中在 IPS、LO、MT、MST、PHC、VO 等处理高级语义的脑区,且分布在高级视皮层区域的体素权重要大于分布在低级视皮层区域的体素。从图 (b) 中可以看出,用于监督重建图像结构特征的 CLIP 底层线性层特征主要 V1、V2、V3、V3ab、hV4 等处理局部形状、纹理信息的低级脑区拟合。这表明,研究团队的模型在神经解码阶段,语义特征主要由高级脑区解释,结构特征主要由低级脑区解释,这一发现与神经科学先前的研究结果相一致。从图 (c) 中可以看出,高级视皮层与低级视皮层区域的体素都参与了解码细节特征 z,且权重大小相当,这说明通过解码 z,使得交叉注意力机制为重建图像融入了更加细粒度的语义与结构信息。以上可视化结果说明,MindDiffuser 在重建图像时使用的多模态信息可以很好被解释。


综上,本文提出了一个两阶段图像重建模型 MindDiffuser,该模型将重建图像的语义和结构信息与图像刺激进行对齐。在 NSD 数据集上,MindDiffuser 在定性和定量对比结果上都优于目前的 sota 模型。同时,实验表明,MindDiffuser 对个体间的差异具有良好的适应性,在没有任何额外调整的情况下,可以为被试 1、2、5 和 7 的刺激实现很好的重建结果。此外,可视化结果还证明,本文模型中利用的多模态信息可以通过神经科学中相应的脑响应来解释,从而验证了模型设计的合理性与可解释性。研究团队认为,MindDiffuser 在促进脑机接口的精确和可控刺激重建方面将发挥重要作用。 


本论文由中科院自动化所直博生(尚未入学)卢一卓和副研究员杜长德作为共同第一作者,何晖光研究员为通讯作者,周琼怡博士是共同作者。研究工作得到了科技部科技创新 2030—“新一代人工智能” 重大项目、基金委项目、以及 CAAI - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。


作者介绍


第一作者


卢一卓,通过中科院自动化所 2022 年人工智能菁英班项目选拔,被拟录取为 2023 级直博生,大四学年在何晖光研究员负责的神经影像计算与分析课题组 (NICA) 实习期间在 ACMMM2023 发表一篇论文。曾获得费振勇奖学金、三星奖学金、北京理工大学优秀学生、北京理工大学优秀毕业生、北京市优秀毕业生。


共同第一作者

杜长德,中科院自动化所副研究员,从事脑认知与人工智能方面的研究,在视觉神经信息编解码、多模态神经计算等方面发表论文 40 余篇,包括 TPAMI/iScience/AAAI/KDD/ACMMM 等。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。个人主页:https://changdedu.github.io/ 


通讯作者



何晖光,中科院自动化所研究员,博导,中国科学院大学岗位教授,上海科技大学特聘教授,中科院青促会优秀会员,建国七十周年纪念章获得者。先后承担 7 项国家自然基金(含基金重点和国际合作重点)、2 项 863、国家重点研究计划课题等项目。曾获得国家科技进步二等奖两项(分别排名第二、第三)、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研究领域为人工智能、脑-机接口、医学影像分析等。近五年来,在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上发表文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委,CCF 杰出会员,CSIG 杰出会员。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单Anthropic 创始人:可以给大模型「照 X 光」,AGI 2-3 年可实现蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享10年烧掉47亿,欧盟「人脑计划」宣告失败?算法重建人类大脑遥不可及,成果支离破碎ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型第二章 文明的产生和发展 (3)一只鼠头引起的一场娱乐大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型【父亲节活动】我曾有个家十分钟读懂Diffusion:图解Diffusion扩散模型HAUSER: 针对明喻改写任务的全面自动化评估10年烧掉47亿,欧盟「人脑计划」宣告失败?算法重建人类大脑遥不可及,成果支离破碎|GGViewNeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型NeurIPS 2023 | 扩散模型解决多任务强化学习问题中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了(10个邀请码)智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?10年烧掉47亿,欧盟“人脑计划”宣告失败?算法重建人类大脑遥不可及,成果支离破碎大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友Stable Diffusion一周年:这份扩散模型编年简史值得拥有论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了论文插图也能自动生成了,用到了扩散模型,还被ICLR接收NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成大模型「点火」,AI for Science 提速在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键鸡贼看世界之北京篇羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型《越来越好》&《向云端》NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion网店模特危机,谷歌发布图片合成模型TryOnDiffusion
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。