脑机接口又进一步:失能者脑子里想的,AI替身能说出来
这是人类有史以来首次直接根据大脑信号,合成语音和面部表情,标志着脑机接口应用史上的又一里程碑。
18年前,年仅30岁的Ann Johnson遭遇了严重的中风,当时她是一名数学老师、排球教练以及一个婴儿的母亲,从此失去了运动和语言能力。
在她女儿的记忆里,从没有过母亲说话的声音——直到美国加州大学旧金山分校等机构的学者将一块芯片植入了Ann Johnson的大脑皮层。接受植入后,当她默念句子时,屏幕上的AI替身会帮她发出“她自己的”声音,并展示微笑、嘟嘴、悲伤等等那些Ann Johnson努力想传达的表情。
8月23日,《自然》杂志发布了这项壮举,这也是人类有史以来首次直接根据大脑信号,合成语音和面部表情,它标志着脑机接口应用史上的又一里程碑。领导这一研究的加州大学旧金山分校神经外科教授Edward Chang说,“我们只是想恢复人们的本来面目。”
Ann Johnson 与AI替身互动。(图源:视频截屏)
在脑机接口领域,近年来多个机构陆续发布重磅成果。人工智能帮助瘫痪人士恢复基础的日常活动,中科院深圳先进技术研究院正高级工程师李骁健告诉“医学界”,“走得快的话,全球预计在2030年前就会有系统率先申报上市。”
从Ann Johnson 的上述经历来看,“读心算法”的落地已并非天方夜谭。在价格方面,“不算手术、护理等医疗开销,全套植入硬件设备成本最低可控制在5万元人民币之内。”李骁健表示。
视频由加州大学旧金山分校威尔神经科学研究所Metzger等人提供。(视频来源于网络)
2005年中风后,Ann Johnson患上了闭锁综合征。
十几年来,她都靠着带有反射点的眼镜,对准屏幕的字母敲击形成文字和外界交流。每分钟只能生成14个单词,她在2020年的一篇文章中写道,“闭锁综合征,就像你有充分的认知,有完整的感觉,但被锁在一个没有肌肉的身体里。”
直到2021年,Ann Johnson看到了一项研究,科研团队通过脑机接口芯片和人工智能算法,帮助一名瘫痪人士将试图说的话转为文本,并显示屏幕上。Ann Johnson立刻联系了对方,后来被选为此次临床试验的8名受试者之一。
而这次,研究人员不再满足仅用文字展示话语。具体地,研究小组将一个由 253 个电极组成的、信用卡大小的芯片植入Ann Johnson大脑皮层的语言区域。在那里,芯片将拦截在中风前本应传递到嘴唇、舌头、喉部和脸部肌肉的神经元信号,重新采集并传到Ann Johnson头部的电子端口,端口和计算机相连,信号被解码为文本,再合成语音。
本次试验系统的概念图。(图源:加州大学旧金山分校)
语音模版用的是20年前Ann Johnson在婚礼祝酒词的发言,“听到自己的声音会让人激动......女儿也从未听过我的声音。”她告诉研究人员。
关于发声的原理,李骁健向“医学界”解释道,当她在大脑中默念单词时,芯片会采集到相应的大脑信号,再通过人工智能分类器,提取出不同单词的音素组合特征,解码并对应到事先搭建好的单词库中识别,最终形成的语音由AI发声。
研究人员构建了由1024个单词组成的词库,人工智能并不直接识别单词,而是通过最小声音单位的组合来实现,比如“Hello”包含:“HH”、“AH”、“L”和“OW”,这样,计算机只要和人建立了39 个声音单元的连接,理论可以组合成任何词句。
试验过程中,Ann Johnson进行了几周的训练,她必须一遍又一遍默念 1024 个单词中的音节,直到人工智能学会识别每个音节对应的大脑活动,组合后与词库一一对应,建立连接。
Ann Johnson通过脑机接口系统,与AI提升进行“意念互动”。(图源:NBC)
由于植入电极密度增加、解码和人工智能学习等方面的进展,解码发声的速度得到了大幅提升。研究结果显示,该系统每分钟能生成 78 个单词,正常人的语速大约在每分钟 160 个。而在同一团队前述2021年的试验中,还仅为每分钟15到18个单词。
研究团队还和一家面部动画公司合作,和Ann Johnson 大脑连接时,AI能识别信号并让她的动画替身做出下巴张开、闭合、咧嘴等不同动作,以表示开心、悲伤或惊讶。
“这是脑机接口在实用性上的重大突破。电子辅助失声者沟通并不是新鲜事,但早期多为二维运动控制任务,计算机只需解码大脑中‘上下’和‘左右’两个自由度,患者就能在虚拟键盘上任意选择字母,甚至无需人工智能辅助解码。但一个个字母拼,速度可想而知。”
“最新系统则属于多分类任务,分为表情和语言两大类,表情中又有张嘴、闭嘴、咧嘴等,语言下面又包含几十个不同音素。不同‘意念’形成庞大的排列组合后,还能相对快速、精准地实现转化,这反映了包括神经科学、人工智能等多学科近年来的飞速发展。”李骁健说。
系统同时加入了联想功能,在出现同音词时,能根据语义选出最接近的词汇。结果表明,当Ann Johnson使用 1024 个单词的词汇集时,准确率约为 75%。
“我们的目标是恢复一种完整的沟通方式,也是与他人交谈最自然的方式。这将对他们(瘫痪人士)的独立性和社交产生深远影响。”研究人员表示,目前他们正在开发“无线版本”的设备,让使用者不必通过头顶电线和计算机连接。
目前,这一系统还不适用于“完全瘫痪”人士。Ann Johnson尚能调动部分嘴部肌肉,对口型。李骁健介绍道,丧失肌肉活动的人,大脑运动、语言相关的神经活动也会最大程度退化,神经信号的采集和解读会更加困难。
对于残障人士,该试验被认为是在“恢复身体独立性和自主性”上又迈出了一大步。这两年,脑接机口领域接连出现了革命性进展。
2022年6月28日,美国约翰斯·霍普金斯大学研究人员完成了全球首例双边植入脑机接口人体试验,让一位瘫痪30年的患者通过意念操控机械臂切、递送蛋糕,完成自主进食;
美国Synchron公司则在今年1月公布“血管介入式”脑机接口临床试验最新进展,4名瘫痪者成功控制了外部设备,可进行发短信邮件、个人理财、在线购物等日常活动;
总部位于阿姆斯特丹的Onward公司开发了“脑-脊髓接口”,今年5月登顶《自然》的成果显示,一位瘫痪12年的病人表现出神经功能恢复迹象,植入物关闭后也能拄着拐杖行走。
大胆设想一个未来场景,无论是健康还是身患重疾,人类通过脑机接口,用“意念”实现对大部分智能设备的控制,解放身体劳动力,能否成为现实?
李骁健说,从单纯的概念到落地医疗市场,脑机接口离大众已并不遥远。“让失能者靠人工智能的辅助拿水杯喝水、控制轮椅自行运动、发合成的语音,完成一些2D或简单的3D操作等,技术上已经不是问题。”
“从这些基本需求出发,只需采集大脑皮层运动和语言区的较少量神经信号,对植入电极、芯片和解码算力等的要求也相对低。预计5到10年内就会有相应产品申报。”李骁健说。
也正因如此,他认为此次研究成果,很大程度代表了医用植入式脑机接口技术短中期内的发展方向。不过分追求高端的硬件设备,首先在简单、实用的临床应用场景上做出突破,上市时定价也不会很高。“实验中每分钟解码了七八十个单词,基本达到现实场景可用的水平。”
Ann Johnson植入的是贴附在大脑皮层的ECoG电极,这一技术已诞生了近20年。Synchron公司用的则是“血管介入式”脑机接口,电极放入大脑血管,而不是皮层组织,虽然牺牲了信号采集的丰富度,但更为安全成熟,解码也相对简单,被认为是或将最先上市的产品。
而在约翰斯·霍普金斯大学的研究中,由于要采集和解码多纬度、精细的动作信号,实现对机械臂的精准控制。以目前的技术来看,则要通过向脑内植入高密度、深度刺入式电极阵列来实现。离临床使用上还有一定距离。
安全性是一方面的担忧,同时复杂程度也将决定脑机接口能否实现无线控制。李骁健表示,只要头顶还长出“电线”,它就不可能成为真正的临床医疗器械。“更精细的运动控制信息,要依靠全体内植入式的脑机接口装置大规模收发神经信号。这方面要做成无线,目前技术上还达不到。”
价格是另一考量。即便硬件成本随科技发展一降再降,但和药物不同的是,医用脑机接口还依赖专业人士辅导下的大量使用训练、医疗护理以及后期一系列维护成本。“越是复杂的系统,脱离实验室回归日常使用的可能性也越低。”李骁健表示。
对于国内的脑接机口领域来说同样如此。根据中国信息通信研究院发布的《脑机接口总体愿景与关键技术研究报告》,结合我国肢体残障和神经系统的疾病负担,预测神经重塑、神经替代、神经调控等脑机接口技术将拥有十万亿级别的市场空间。
“硬件水平上,我国和欧美的差距没有想象得那么大。前几年大家把脑机接口当作一种高端设备投资,强调‘高端设备国产替代’,但最近才发现海外率先取得临床成果的,往往用的是较早期的设备技术。”李骁健说。
今年5月29日,中科院院士赵继宗在中关村论坛脑机接口创新发展论坛上称,语言重建、脑控机械臂,在这些领域,国外能做到的,国内也能做到,但更重要的是如何让政府部门参与协调整个产学研用这条线,“个别病例、个别试验可能都没有问题,但最后要用于更多患者,就得考虑产业化路径。”
“本次海外最新成果,靠的也不是新型硬件设备,而是团队在语言解码领域方法的创新和突破,瞄准简单却实用的说话场景。相比硬件设备,临床医学、脑科学、人工智能、工程学的扎实基础和多学科交叉、产学研间的紧密协作,结合临床需求的紧迫程度,才是哪个系统能率先落地的关键因素。”李骁健说。
微信扫码关注该文公众号作者