Redian新闻
>
如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享

如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享

公众号新闻


人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。


视觉神经编码指的是将外部视觉刺激拟合成神经活动信号的过程。视觉神经解码则是要找到一个从神经信号到对应视觉刺激的映射,这是一项充满意义和挑战的工作,根据解码难度和目标的不同可以划分为刺激分类、刺激检索与刺激重建。其中,刺激重建旨在将人脑的神经活动转化为人类可理解的图像或视频,以实现对思维和感知的破译,其方法是直接通过给定的 fMRI(功能性磁共振成像)信号生成图像,并且要求其形状、位置、朝向等细节与对应刺激图像对齐。


之前的一些研究在手写数字、字母、人脸等简单视觉刺激的解码重建方面取得了一定的进展,但是其重建结果在位置、朝向等结构信息上不可控、且缺乏明确的语义信息,难以辨别。



近期,借助多模态预训练大模型(如 CLIP)与生成能力更强的 AI 模型(如 Stable Diffusion),中国科学院自动化研究所的的脑信息解码工作得到了语义明确且与原图更接近的重建图像。


具体来说,他们收集了「脑-图-文」三模态数据集,并将大脑、视觉和语言知识相结合,通过多模态变分自编码(VAE)学习的方式,首次实现了从人类脑活动记录中零样本地解码视觉新类别,相关论文已发表在人工智能领域顶级期刊 IEEE TPAMI(参见《TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型》)。


研究表明,人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。当我们看到一个熟悉的物体时,我们的大脑会自然而然地检索与该物体相关的知识。比如当我们看到大象的图片时,会自然地在脑海中检索到大象的相关知识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和语言的形式进行编码(双重编码),其中语言作为一种有效的先前经验,有助于塑造由视觉产生的表征。因此,作者认为想要更好地解码记录到的脑信号,不仅应该使用实际呈现的视觉语义特征,还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。


中国科学院自动化研究所研究人员提出的 「脑 - 图 - 文」三模态联合学习框架,简称 BraVL。


此外,他们还借助 Stable Diffusion 和 CLIP 新提出了一种基于扩散模型的两阶段图像重建模型 MindDiffuser,相关论文已被国际多媒体大会 ACM MM 2023 接收(参见《扩散模型「读脑术」,自动化所 MindDiffuser 清晰重建人脑视觉画面 》)。



这些研究结果表明了一些有趣的结论和认知洞见:


  • 从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;

  • 使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;

  • 视觉感知可能伴随着语言影响来表示视觉刺激的语义;

  • 该研究取得了目前最优的图像重建结果。


这些研究为理解大脑中的语义信息处理机制、发展恢复视觉功能的方法以及辅助脑机接口系统设计等方面提供了潜在的应用价值。


为了让大家更好地了解这些研究成果,机器之心将于北京时间 8 月 29 日 19:00-20:00 邀请两项研究的第一作者、中国科学院自动化所副研究员杜长德,在机器之心机动组微信视频号上进行技术分享。



分享主题:AI 读脑:生成式模型驱动的脑信息解码与视觉重建


嘉宾简介


杜长德,中国科学院自动化所副研究员,从事脑认知与人工智能方面的研究,在包括 Cell 旗下子刊 iScience、TPAMI、AAAI、KDD 等发表论文 40 余篇。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。


个人主页:https://changdedu.github.io/


直播间:关注机器之心机动组视频号,立即预约直播。


交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。


参考链接:

TPAMI 论文地址:https://ieeexplore.ieee.org/document/10089190

TPAMI 代码地址:https://github.com/ChangdeDu/BraVL

“脑-图-文” 三模态数据地址:https://figshare.com/articles/dataset/BraVL/17024591  

MindDiffuser 论文地址:https://arxiv.org/pdf/2308.04249.pdf

MindDiffuser 代码地址:https://github.com/ReedOnePeck/MindDiffuser

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
消失一段日子的她。。。《蝴蝶与少年》&《鱼尾纹》为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型第四章 三民主义救中国 (2)Cell Press有奖注册!清华、厦大教授在线分享:AI赋能材料设计与研发科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩突发!中国科学院院士、中国医学科学院肿瘤医院院长赫捷被举报!被污染的美国自由女神扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面快手自研大模型「快意」亮相,在多个大模型榜单上表现优异AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞诺奖阿秒光脉冲有什么用?中国科学院袁岚峰:推进医疗诊断、基础科学研究 | 郑松毅分居了, 冷眼看婚姻破解大模型「涌现」之谜:新奇性搜索是AI腾飞的踏脚石谷歌发现大模型「领悟」现象!训练久了突然不再死记硬背,多么痛的领悟百度何俊杰:大模型下一程,「烧脑」做应用有奖注册!清华、UT Austin教授在线分享:可穿戴式智能设备前沿研究与进展大模型「点火」,AI for Science 提速首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下CIPS ATT | 一线国内大模型研究学者系统讲授大模型基础及应用前景,速览课程要点!【太难了】多伦多大学「读不下去」:学费贵作业多考试难!中国留学生退学率吓人!姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了首次发现「细胞蛇」并揭示控制其组装和解聚有望治疗肥胖等代谢疾病,期待联合产业端进行转化|专访上海科技大学刘冀珑大模型「进化手册」:AI 原生应用该如何落地?陈丹琦ACL学术报告来了!详解大模型「外挂」数据库7大方向3大挑战,3小时干货满满中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了(10个邀请码)上山下海,360收获AI大模型「第一桶金」8.23 中国大模型「顶流群聊」笔记Anthropic 创始人:可以给大模型「照 X 光」,AGI 2-3 年可实现正式投用!中国科学院大学成都学院新校区来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。