今年 4 月,Nature 杂志曾发表脑机接口领域一项重大突破,加州大学旧金山分校神经外科华裔教授 Edward Chang 及同事开发出一种可以将脑活动转化为语音的神经解码器。该系统通过解码与人类发音相关的脑信号,成功合成出受试者想要表达的语音,解决了瘫痪和失语患者所面临的重大挑战,为在失语者中恢复语音功能奠定了基础。

时隔三个月,Edward Chang 教授再一次在脑机接口领域取得重大突破,不仅要实时识别和合成想要发出的语音,这次研究人员还实现了实时识别和合成正在听到的语音。

这篇研究论文于 7 月 30 日发表在 Nature Communications 上,题为《利用人类大脑皮层活动实时解码问答对话》。在研究中,Edward Chang 团队成功解码受试者听觉和回答问题相关的大脑神经信号,并实时生成对应的文本记录。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO

图丨Edward Chang 教授(来源:UCSF)

这是第一次仅基于受试者对话期间记录的神经信号,就识别出受试者何时正在倾听或说话,并预测出受试者正在听到或想要说出的内容。

此外,该神经解码系统还能联系上下文语境,通过解码问题的信息来提高解码答案的准确性(因为某些答案仅对应着某些问题)。最终测试结果表明,该系统能够解码产生和感知的语音,准确率分别高达 61% 和 76%。

这项研究,也意味着科学家们帮助那些不能说话的人实现通过“思想”进行交流的努力,离现实更进了一步。

“目前,由于瘫痪而失语的患者只能用残留的眼球运动或肌肉抽搐来控制电脑界面,缓慢地拼写单词。但在很多情况下,他们的大脑中仍然存在着产生流利语言所需的信息,而现在我们需要通过新的技术让他们表达出来。”Edward Chang 教授表示。

“多年来,我的实验室主要专注于通过大脑信号如何识别和产生语言,随着过去十年我们在该领域所看到的进展,我们很清楚,我们或许能够利用这些发现来帮助失语患者。”

识别脑电波合成语音

“说话”简直是一件极其简单且毫不费力的事情,但实际上“说话”却是人类执行的最复杂的活动之一。

失去说话的能力,是极其不幸和难以挽救的。因中风、肌萎缩侧索硬化(霍金即患此病)或其他神经系统疾病而丧失语言功能和沟通能力的患者,亦不在少数。

如何让这些失语者再次获得“表达”的能力,是许多科学家们正在努力的事情。目前有一些用于大脑控制打字的脑机接口技术,通过监测头部或眼睛的残余非语言运动,控制光标以逐个选择字母并拼出单词的形式,来帮助瘫痪患者对外表达。

但看过霍金生前“说话”视频的人,可能就能体会到那种一分钟蹦几个单词的那种崩溃。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO

(来源:iStock)

2017 年,一直专注于解码神经元实现人工语音合成的 Edward Chang 教授以及他的研究生 Claire Tang 曾在 Science 杂志发表论文,阐述大脑皮层颞上回神经元在语言中的重要性。研究首次发现了人类大脑中用于辨别相对声调变化的神经元,而这种神经元可以帮助人类在语言中明确表达感情、交流思想。

之后,在今年 4 月 Nature 发表的研究中,Edward Chang 教授团队设计了一种神经解码器,明确地利用人类皮层活动中编码的运动学和声音表征来合成可理解的合成语音,实现了以流利说话者速度的语音输出。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO图丨用于语音合成的脑机接口(来源:Nature)

传统的语音合成研究采用了上图 a 的方法,即使用脑电图设备监测大脑语音相关区域的神经信号,并尝试使用循环神经网络将这些信号直接解码为合成语音。

而 Edward Chang 以及同事开发了一种不同的方法(上图 b),将解码分为两个步骤:第一步,将神经信号转换成声道咬合部位的运动(红色);第二步,将声道咬合部位的运动转换成合成语音。

此外在一项不需要受试者出声(仅做出发音动作)的测试中,通过解码无声言语的特征也成功实现了一定程度的语音合成。

可以说,无论是在语音重建的准确性方面,还是在听众对所产生语句的辨识力方面,Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。

更进一步的“灵魂交流”

既然通过解码大脑信号,即可代替张嘴说话,人工合成想要说的语音,那么如何进一步识别和解码出耳朵听到声音时的大脑信号,是不是就能实现不用语言对话的“灵魂交流”了呢?

在 7 月 30 日发表的最新研究中,Edward Chang 及其同事就做了这样的尝试,以希望能够在交互式会话环境中对语音的“说”和“听”进行实时解码。

在自然交流的听和说过程中,不同的听觉和发音运动相关的大脑区域参与其中。而以往直接从人脑解码语音的尝试,通常都是把听或说任务孤立起来进行考虑。

而 Edward Chang 及其实验室的研究人员开发了一种方法,可以实时识别受试者对话过程中的大脑信号,并解码出正在听到或想要说出的内容。

具体而言,当受试者执行自然对话过程中语音感知(听到问题)和发音(大声回答)任务时,研究人员通过从高密度皮层脑电图(ECoG)阵列记录神经活动(覆盖听觉和感觉运动皮质区域),检测受试者何时听到或说出话语,然后解码这些大脑信号的内容。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO

图丨受试者在听到问题(蓝色)和回答答案(红色)期间的实时语音解码的示意图(来源:Nature)

在每次试验中,参与者都会听到一个问题,并在屏幕上看到一组可能的答案选项(上图 a),当绿色提示出现在屏幕上时,受试者需要自由选择并口头给出其中一个答案(上图 b);

此时,植入于大脑皮层的ECoG电极实时获取大脑皮层活动信号(上图c),语音检测模型通过获取的大脑皮层信号来预测受试者是否正在听到问题或产生了答案,或两者都没有(上图d);

当语音检测模型检测到“正在听到问题”事件时,神经信号传入神经解码器进行解码,并输出所解码出的问题(上图e和f);因为某些答案只对某些问题是合理的,因此研究人员使用解码的问题可能性作为上下文动态更新每个答案的先验概率(上图g和h)。

当语音检测模型检测到“回答”事件时,神经信号被传递给一个答案解码器,来解码并计算可能的答案(上图 i),上下文整合模型将这些答案的可能性与答案的先验结合起来,从而产生答案的后验概率(紫色),并输入最终的解码答案(上图 j 和 k)。

“之前的大多数方法都只关注于解码语音,但在这里我们展示了解码对话双方的价值——人们听到的问题和他们的回答。”Edward Chang 说。

测试结果表明,该系统实时解码受试者听到问题和给出答案的准确率,分别为高达 76% 和 61%。这些结果也证明了在交互式会话环境中对语音进行实时解码的可行性,对于为无法沟通的患者开发相应的脑机接口设备具有重要意义。

研究人员也表示,更好的算法和更快的计算机也提高了研究中解码的速度,过去需要几周到几个月的离线处理,现在可以实时完成。

脑机接口的商业押注

Edward Chang 团队近期两项经同行评议的脑机接口重磅突破研究,让人不得不联想起本月埃隆·马斯克(Elon Musk)宣布他的脑机接口公司 Neuralink 所取得的进展。

7 月 17 日,马斯克为其投资的脑机接口初创公司 Neuralink 召开了一场发布会,首次对外披露了这家公司在脑机接口上的最新技术进展以及未来展望:Neuralink 演示了其已经在小鼠身上实验过的一款名为“缝纫机”(sewing machine)的探针设备,该设备可将 1500 个电子探针送入小鼠大脑,能够同时从多个神经元中提取信息。目前,Neuralink 的这款设备已经在动物身上进行了至少 19 次手术,植入电线成功率达 87%。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO

图丨Neuralink 的脑机接口设备宣传图(来源:Neuralink)

这次发布也是 Neuralink 成立两年以来最重磅的一次成果发布。不过,这一举动与学术界的惯例相悖,在发表论文之前,就进行了成果的新闻发布。在发布会上,马斯克也表示,如果 FDA 批准,最快在明年年底,将能够在患者身上使用这项技术。

虽然不少批评的声音认为,这是马斯克蕴含风险的疯狂尝试,但这也凸显出近年来资本在脑机接口领域的商业关注。比如,Edward Chang 实验室所开展的脑机接口研究,就是由 Facebook Reality Labs 资助。

脑机接口研究同样是 Facebook 雄心勃勃的主要目标之一。2017年,Facebook 的脑机接口计划研究总监 Mark Chevillet 在一次会议上,描述了一种能够从大脑活动中每分钟读出 100 个单词的非侵入性技术,在当时这种新的“大脑打字”计划听起来完全是疯狂的。

如今,两年过去了,Chevillet 似乎对这个目标更有信心。Edward Chang 团队在 Nature Communications 发表的最新研究,的确让 Facebook 开发可以控制而不必大声说话的增强现实(AR)眼镜的最终目标,更加现实。

华裔教授实现脑机接口突破,首次实时解码“问答对话”神经信号-肽度TIMEDOO

(来源:Facebook)

似乎,Facebook 和 Neuralink 的举动,让人感受到了率先提供解码大脑活动的商用脑机接口技术的竞争。不过,目前来看,实现这一目标的过程很可能是一个缓慢的过程。

Chevillet 在接受 IEEE Spectrum 采访时表示,“我们还没有任何实际的产品计划,因为这项技术是如此早期的研究。”

而 Edward Chang 则表示,他希望能够尽快为不能说话的人群带来有意义的改变。到目前为止,该团队的所有工作都是在会说话的志愿者身上完成的,所以现在该团队将花一年时间与一位失语的患者合作研究。

Edward Chang 也强调,所有与 Facebook 合作的结果都将发布,并向学术界开放。“我希望这不仅仅受益于我们所做的,而是受益于整个领域。”

来源:MIT科技评论