神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:医学前景日益昌明,很多以前解决不了的医学难题得到了解决。对于一些无法与外界正常交流的患者来说,一项新的技术可以帮助他们发出声音。通过在大脑中植入电极,患者头脑里想的东西,可以直接呈现在电脑屏幕上。本文来自编译,希望对您有所启发。
【资料图】
这名瘫痪的男子已经15年没有说过话了,目前,他使用脑机接口来解码自己想说的话,一次一个词。加州大学旧金山分校(University of California, San Francisco)。
电脑屏幕上显示着问题“你想喝水吗?”(Would you like some water?)。下面有三个点在闪烁,随后接连出现的是单词是“不,我不渴。”(No I am not thirsty.)。
是大脑活动让屏幕中出现了文字。这名男子自从中风后大脑受损,已经有15年没有说话了。他使用过许多其他技术进行交流,最近,他用一个附在棒球帽上的指针在触摸屏上敲出文字,这种方法很有效,但很慢。他自愿参加了我的研究小组在加州大学旧金山分校(University of California, San Francisco)的临床试验,希望能开创一种更快的交流方法。到目前为止,他只在研究过程中使用过这种大脑转换文本的系统,但希望能把这项技术发展成像他这样的人可以在日常生活中使用的工具。
在初步研究中,我们在志愿者的大脑表面覆盖了一个薄而灵活的电极阵列。电极会记录神经信号,并将其发送到语音解码器,由语音解码器将信号翻译成该男子想要说的话。一个瘫痪的、不能说话的人使用神经技术从大脑中传出整个单词,而不仅仅是单个字母,这还是第一次发生。
这项试验是十多年来对“支配语言的潜在大脑机制”进行研究的结果,我们对迄今为止所取得的成就感到非常自豪。但我们才刚刚开始,在加州大学旧金山分校的实验室里,我们正在与世界各地的同事合作,使这项技术足够安全、稳定、可靠,可以供患者在家里日常使用。我们也在努力改进系统的性能。
神经义肢在过去的20年里取得了长足的进展。听力方面的人工植入物进展最快,其设计与内耳的耳蜗神经连接,或直接与听觉脑干连接。还有大量关于视网膜和大脑植入视觉的研究,以及让义手患者获得触觉的研究。所有这些感官假体都从外部世界获取信息,并将其转换为电信号,输入大脑的处理中心。
第一个版本的脑机接口为志愿者提供了50个实用单词。图片来源:加州大学旧金山分校(University of California, San Francisco)
神经义肢(neuroprosthetics)能记录大脑的电活动,并将其转换为控制外界事物的信号,如机械臂、视频游戏控制器或电脑屏幕上的光标。最后一种控制方式已经被“大脑之门”(BrainGate)联盟等团体使用,使瘫痪的人能够打字,有时是一次一个字母,有时使用自动补全功能来加快打字过程。
为了实现用大脑打字的功能,通常要在大脑中控制运动的部分(运动皮层)中放进植入物。然后,用户通过想象某些物理动作,来控制在虚拟键盘上移动的光标。另一种方法是我的一些合作者在2021年的一篇论文中率先提出的,让用户想象自己拿着笔在纸上写字,由此在运动皮层中产生信号,然后再将这些信号翻译成文本。这种方法创造了新的速度纪录,使志愿者每分钟能写大约 18 个单词。
在我们实验室的研究中,采取了一种更巧妙的方法。我们不是对用户移动光标或笔的意图进行解码,而是对控制声道的意图进行解码,声道由数十块控制喉头、舌头和嘴唇的肌肉组成。
这个看似简单的对话装置,是由复杂的神经技术硬件和解码大脑信号的机器学习系统实现的。图片来源:加州大学旧金山分校(University of California, San Francisco)
我十多年前就开始在这个领域工作了。作为一名神经外科医生,我经常看到一些严重受伤、无法说话的病人。令我惊讶的是,在许多情况下,大脑损伤的位置与我在医学院学到的综合症并不匹配。我意识到,关于大脑是如何处理语言的,我们还有很多要学习。于是,我决定研究语言的基础神经生物学,如果可能的话,开发一种脑机接口(BMI),为失去交流能力的人恢复交流。除了我的神经外科背景,我的团队成员还拥有语言学、电子工程、计算机科学、生物工程和医学方面的专业知识。我们正在进行的临床试验是在对硬件和软件进行测试,以探索脑机接口的极限,并确定我们可以为患者恢复什么样的语言能力。
语言是区分人类的行为之一。许多其他物种也会发声,但只有人类以无数种不同的方式组合一组声音来代表他们周围的世界。这也是一种非常复杂的运动动作——一些专家认为这是人类最复杂的运动动作。说话是通过声道调节气流的产物;每一次发声,我们都会通过在喉部声带中产生可听见的振动并改变嘴唇、下巴和舌头的形状来塑造呼吸。
声道的许多肌肉与以关节为基础的肌肉(如手臂和腿部的肌肉)完全不同,后者只能以几种规定的方式运动。例如,控制嘴唇的肌肉是括约肌,而组成舌头的肌肉更多的是由水力学控制的(舌头主要由固定体积的肌肉组织组成,所以移动舌头的一部分会改变其他部分的形状)。管理这种肌肉运动的物理原理与肱二头肌或腿筋完全不同。
因为有这么多的肌肉参与其中,而且每一块都有很大的自由度,所以本质上有无限多可能的构型。但当人们说话时,事实证明他们使用的核心动作相对较少(在不同的语言中有些不同)。例如,当说英语的人发“d”的声音时,会把舌头放在牙齿后面。很少有人意识到说最简单的单词所需的精确、复杂和协调的肌肉动作。
团队成员大卫·摩西(David Moses)看着病人的脑电波读数(左屏)和解码系统的活动显示(右屏)。图片来源:加州大学旧金山分校(University of California, San Francisco)
我的研究小组专注于大脑运动皮层中向面部、喉咙、嘴巴和舌头的肌肉发送运动指令的部分。这些大脑区域是多任务工作的,它们会控制产生语言的肌肉运动,同时也控制吞咽、微笑和接吻的肌肉运动。
要想真正研究这些区域的神经活动,需要毫米级的空间分辨率和毫秒级的时间分辨率。从历史上看,非侵入性成像系统能够提供其中之一,但不能同时实现。当我们开始这项研究时,发现关于“大脑活动模式如何与最简单的语音成分(音素和音节)相关联”的数据非常少。
在此,我们要感谢志愿者们。在加州大学旧金山分校的癫痫中心,准备手术的患者通常要在他们的大脑表面放置几天的电极,以便我们能在他们癫痫发作时绘制相关区域。许多患者自愿参加神经学研究实验,让研究人员看到大脑中的电极记录。我的小组会研究患者说话时的神经活动模式。
试验中所涉及的硬件称为皮质电图(ECoG)。ECoG 系统中的电极并不会穿透大脑,而是位于大脑表面。我们的阵列可以包含几百个电极传感器,每个电极传感器都记录数千个神经元。到目前为止,我们使用的阵列有 256 个通道。早期研究的目标是发现人们说简单音节时皮质活动的模式。我们要求志愿者说出特定的声音和单词,同时记录他们的神经模式,跟踪其舌头和嘴巴的运动。有时,我们会让志愿者涂上彩色的面部颜料,然后用计算机视觉系统提取运动姿态。还有的时候,我们会使用放置在患者颌骨下的超声波机,来成像其舌头的移动。
该系统首先将一个柔性电极阵列覆盖在患者的大脑上,以接收来自运动皮层的信号。该阵列专门捕捉针对患者声道的运动指令。固定在头骨上的一个端口引导着连接到计算机系统的电线,计算机系统会将大脑信号解码,并将它们翻译成患者想要说的话,呈现在屏幕上。图片来源:克里斯·菲尔波特
我们用这个系统将神经模式与声道的运动相匹配。一开始,我们对神经代码有很多疑问。一种可能性是,神经活动控制肌肉的运动方向,而大脑基本上是控制这些肌肉是否运动,就像是在键盘上按下按键一样。另一个想法是,编码决定了肌肉收缩的速度。还有一个想法是,神经活动与肌肉收缩的协调模式相一致,肌肉收缩用于产生某种声音。例如,发出“啊”的声音时,舌头和下巴都需要向下运动。我们发现,有一个控制声道不同部分的表征图,不同的大脑区域以协调的方式结合在一起,产生流畅的语言。
我们的工作依赖于人工智能在过去十年中的进步。我们可以将收集到的关于神经活动和语音运动学的数据输入到神经网络中,然后让机器学习算法在两个数据集之间的关联中寻找模式。在这个过程中,我们有可能在神经活动和生成的语音之间建立联系,并使用这个模型生成计算机生成的语音或文本。但这种技术无法训练针对瘫痪患者的算法,因为我们缺少一半的数据:我们有神经模式,但没有相应的肌肉运动。
我们意识到,使用机器学习的更聪明方法是,把问题分解成两个步骤。首先,解码器将来自大脑的信号翻译成声道肌肉的预期动作,然后将这些预期动作翻译成合成的语音或文本。
我们称之为仿生学方法,因为它复制了生物学过程。在人体中,神经活动直接负责声道的运动,间接负责声音的产生。这种方法的一大优势在于对解码器的训练,以便将肌肉运动转化为声音。因为声道运动和声音之间的关系是相当普遍的,所以我们能够利用普通的大型数据集来训练解码器。
下一个巨大的挑战是,将这项技术带给真正能从中受益的人。
美国国立卫生研究院(NIH)正在资助我们从 2021 年开始的试点试验。我们已经有两名植入了 ECoG 阵列的瘫痪志愿者,并希望在未来几年有更多志愿者加入进来。我们的主要目标是提高他们的沟通能力。在这个过程中,我们用每分钟的字数来衡量他们的表现。一个成年人在全键盘上打字的平均速度是每分钟 40 个单词,最快的打字速度达到每分钟 80 多个单词。
爱德华·张(edward Chang)受到病人的启发,开发了一种大脑语音系统。图片来源:芭芭拉·里斯
我们认为接入语音系统可以提供更好的结果。人类说话比打字快得多:一个说英语的人一分钟可以轻松说出 150 个单词。我们想让瘫痪的人能以每分钟 100 字的速度交流。为了实现这一目标,还有很多工作要做,但我们认为,我们的方法使它成为一个可行的目标。
植入过程是一款常规的手术。首先,外科医生切除患者的一小部分头骨,接下来,灵活的 ECoG 阵列被轻轻地放置在大脑皮层表面。然后,医生将一个小端口固定在患者头骨上,并通过头皮上的一个单独的开口接出。我们目前需要这个连接到外部电线的端口,来传输来自电极的数据,但希望在未来使该系统能成为无线传输的。
我们考虑过使用穿透性微电极,因为它们可以记录更小的神经群体,因此可能提供更多关于神经活动的细节。但在临床应用方面,目前的硬件并不像 ECoG 那样坚固和安全,尤其是在多年后。
另一个需要考虑的问题是,穿透式电极通常需要每天重新校准,才能将神经信号转化为清晰的指令。而对神经设备的研究表明,设置速度和性能可靠性是让人们顺利使用该技术的关键。这就是为什么我们在创建长期使用的系统时,会优先考虑稳定性。
因为当我们观察瘫痪志愿者的大脑模式时,他们不能说话,所以我们让第一位志愿者尝试两种不同的方法。他首先列出了 50 个日常生活中常用的单词,比如“饿了”、“渴了”、“请”、“帮助”和“电脑”。在几个月的试验中,志愿者在尝试说话会产生更清晰的大脑信号,足以训练解码算法。然后,志愿者可以使用列表中的这些单词生成他自己想说的句子,比如“不,我不渴。”
我们现在正在努力扩大词汇量。要做到这一点,我们需要继续改进当前的算法和接口,但我相信这些改进将在未来几个月或几年内发生。既然已经证明原理上是可行的,那么接下来的目标就是优化。我们可以专注于使系统更快、更准确,以及最重要的是更安全、更可靠。
如果我们能更好地理解大脑系统,以及瘫痪如何改变大脑的活动,那么可能会有更大的突破。我们已经意识到,无法向声带肌肉发送指令的瘫痪患者的神经模式,与能够向声带肌肉发送指令的癫痫患者的神经模式,是非常不同的。我们正在尝试一项颇具前景的 BMI 工程壮举,同时还有很多关于基础神经科学的知识需要学习。我们相信,这一切都将促使患者重新发出属于自己的声音。
译者:Jane