从大脑活动中解码自然语言:任务与前沿方法
1 简介
从大脑活动中解码自然语言的最大需求出现在那些因锥体束或下运动神经元的急性或退行性损伤而导致运动和语言障碍的患者中。当运动和语言障碍特别严重,如在锁定综合征(LIS)中,患者可能完全失去运动控制,从而无法独立发起或维持交流,仅限于用眨眼或眼球运动等轻微动作回答简单问题。BCI技术提供了大脑与外界之间的桥梁,读取人脑产生的信号并将它们转换成所需的认知任务,使得那些由于运动障碍而不能说话的人可以仅通过他们的脑信号进行交流,而无需移动任何身体部分。
在协助这类患者交流上,很多BCI范式已经取得了重大进展,包括P300、稳态视觉诱发电位(SSVEP)和运动想象(MI)等。P300和SSVEP利用外部刺激,如闪烁的屏幕或听觉蜂鸣声,以诱发有区分性的大脑模式。基于运动想象的系统则识别人脑自发的运动意图,无需外部刺激的辅助。然而,这些范式通常只能通过意念打字的形式输出文本,无法替代口头交流的速度和灵活性。在日常对话中,每分钟交流的平均单词数通常能达到意念打字速度的7倍。因此,从大脑活动中解码自然语言,更具体而言是从言语或想象言语时的大脑活动解码自然语言,相比之前的BCI范式具有明显的速度优势,同时也允许患者用更少的努力进行沟通。
2 数据采集
2.1 ECoG
2.2 EEG
2.3 MEG
2.4 fMRI
fMRI具有较高的空间分辨率和较低的时间分辨率。fMRI一次扫描可以测量约100,000个体素,而MEG的传感器通常在300个以下。然而,一个神经活动的脉冲可能导致BOLD在大约10秒内上升和下降;对于自然说出的英语,每次扫描采集的大脑图像可能受到超过20个单词的影响。这意味着大脑活动的解码是一个不适定问题。尽管这为解码连续语言提出了挑战,仍然有一些工作在该方向做出了探索和尝试。
3 前沿工作
3.1 端到端的解码
Machine translation of corticalcactivity to text with an encoder-decoder framework(Nature neuroscience 2020)[1]在这篇工作之前,大多数从大脑活动中解码自然语言的工作通常局限于孤立的音素或单音节词。解码连续文本的工作相对较少,且效果不佳。文章将问题建模为机器翻译问题,脑信号视为源语言,对应的连续文本视作目标语言,从而将机器翻译领域的模型方法迁移到大脑活动解码这一任务上。
Open Vocabulary Electroencephalography-to-Text Decoding and Zero-Shot Sentiment Classification(AAAI 2022)[2]在神经科学和脑机接口领域,大脑活动数据的采集通常面临一系列挑战,最终导致采集的数据集规模通常较小,成为相关研究和应用发展的重要限制。由于缺乏训练数据,传统的从大脑活动中解码自然语言的工作通常局限在小而封闭的词表上,且难以泛化到训练集之外的单词和句子上。这篇工作首次使用预训练语言模型(文章使用BART[6])进行EEG信号的连续文本解码。借助预训练语言模型在理解句法特征、语义特征以及长距离依赖方面的能力,这篇工作得以将词表扩展到约50000的规模(即BART的词表大小),同时在数据稀缺的条件下保持较好的泛化能力。
UniCoRN: Unified Cognitive Signal Reconstruction bridging cognitive signals and human language(ACL 2023)[3]尽管EEG信号的连续文本解码已取得一定成功,但从fMRI信号生成连续文本的研究相对较少,这主要是因为fMRI的低时间分辨率。之前的fMRI信号解码方法通常依赖于对预定义的感兴趣区(ROI)进行特征提取,未能有效利用时间序列信息,且通常忽略高效编码的重要性。为解决这些问题,并避免使用单独的复杂流程从特定模态的脑信号解码语言,文章提出了一个通用的脑信号解码框架,称作UniCoRN(统一认知信号重构),可应用于各种模态脑信号的解码。UniCoRN采用编码器—解码器框架,利用了预训练语言模型的强大解码能力,并通过快照和序列重建构建了一个有效的编码器,使模型能够分析单个快照及快照序列之间的时间依赖性,从而最大化地提取脑信号中的信息。
3.2 非端到端解码
Semantic reconstruction of continuous language from non-invasive brain recordings(Nature Neuroscience 2023)[4]这篇工作提出了一种方法,从fMRI信号重建受试者正在听到或想象的听觉刺激(以自然语言的形式)。实现这一点需要克服fMRI的低时间分辨率。为解决这一问题,文章提出的解码器并未采用端到端的解码方式,而是通过猜测候选单词序列,评估每个候选项引发当前测得的大脑反应的可能性,然后选择最佳候选项来实现解码。
3.3 信号对齐研究
Decoding speech from non-invasive brain recordings(Arxiv 2022, Meta AI)[5]这篇工作提出了一种使用单一架构的数据驱动方法,从MEG或EEG信号中解码自然语言。文章引入了一个卷积神经网络作为脑信号的编码器,并使用对比目标进行训练,以对齐预训练语音自监督模型wav2vec-2.[10]生成的深层音频表征。
4 总结
参考资料
[2] Wang Z, Ji H. Open vocabulary electroencephalography-to-text decoding and zero-shot sentiment classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(5): 5350-5358.
[3] Xi N, Zhao S, Wang H, et al. UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive signals and human language[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 13277-13291. [4] Tang J, LeBel A, Jain S, et al. Semantic reconstruction of continuous language from non-invasive brain recordings[J]. Nature Neuroscience, 2023: 1-9.
[5] Défossez A, Caucheteux C, Rapin J, et al. Decoding speech from non-invasive brain recordings[J]. arXiv preprint arXiv:2208.12266, 2022.
[6] Lewis M, Liu Y, Goyal N, et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7871-7880.
[7] Hollenstein N, Rotsztejn J, Troendle M, et al. ZuCo, a simultaneous EEG and eye-tracking resource for natural sentence reading[J]. Scientific data, 2018, 5(1): 1-13.
[8] Hollenstein N, Troendle M, Zhang C, et al. ZuCo 2.0: A Dataset of Physiological Recordings During Natural Reading and Annotation[C]//Proceedings of the 12th Language Resources and Evaluation Conference. 2020: 138-146.
[9] Nastase S A, Liu Y F, Hillman H, et al. The “Narratives” fMRI dataset for evaluating models of naturalistic language comprehension[J]. Scientific data, 2021, 8(1): 250.
[10] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.
[11] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.
[12] Schoffelen J M, Oostenveld R, Lam N H L, et al. A 204-subject multimodal neuroimaging dataset to study language processing[J]. Scientific data, 2019, 6(1): 17.
[13] Gwilliams L, King J R, Marantz A, et al. Neural dynamics of phoneme sequencing in real speech jointly encode order and invariant content[J]. BioRxiv, 2020: 2020.04. 04.025684.
[14] Broderick M P, Anderson A J, Di Liberto G M, et al. Electrophysiological correlates of semantic dissimilarity reflect the comprehension of natural, narrative speech[J]. Current Biology, 2018, 28(5): 803-809. e3.
[15] Brennan J R, Hale J T. Hierarchical structure guides rapid linguistic predictions during naturalistic listening[J]. PloS one, 2019, 14(1): e0207741.
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章