作者mulkcs (mulkcs)
看板Cognitive
标题[新知] 机器即时将思绪转成言语
时间Thu Dec 31 01:24:47 2009
机器即时将思绪转成言语
Machine Translates Thoughts into Speech in Real Time
http://www.physorg.com/news180620740.html
By Lisa Zyga, December 21, 2009
(PhysOrg.com) -- 藉由将电极植入「闭锁症候群」患者的脑中,科学家示范如何以无线
方式将神经讯号传到一部语音合成器上。这种「思考转语音(thought-to- speech)」的
过程费时约 50 毫秒 -- 这与一位非瘫痪的、在神经病学上毫无损伤者,说出其想法所花
的时间一样。这项研究标志着为了某种外部装置之即时控制而进行永久安装的、无线移植
的首例成功示范。
这项研究由波士顿大学认知与神经系统系的 Frank Guenther 所领导,此外还包括波士顿
大学 Sargent 健康与复建科学学院以及哈佛--麻省理工健康科技部。这个研究团队包括
来自乔治亚州 Duluth 市的 Neural Signals, Inc.,;阿根廷布宜诺斯艾利斯的
StatsANC LLC;位於乔治亚州,Marietta 市的乔治亚技术研究所;位於乔治亚州
Lawrenceville 市的Gwinnett 医学中心以及乔治亚州 Atlanta 市的 Emory 大学附属医
院的共同研究者。该团队将结果发表在最近一期的 PLoS ONE 上。
"我们研究的结果证明,使用者能直接控制脑机界面(brain-machine interface,BMI)
的声音输出,而非(相对缓慢的)打字过程," Guenther 表示。
这些研究者在他们的研究中,藉由一位 26 岁男性来试验此技术。这位男性在 16 岁时发
生脑干中风。这种脑干中风导致志愿者完成动作的运动神经元与脑部其余部份之间的损伤
;虽然他的意识与认知能力毫发无伤,不过他除了眼睛能缓慢地垂直移动外,全身瘫痪。
这种罕见症状被称为闭锁症候群。
五年前,当志愿者 21 岁时,科学家在靠近前运动(premotor)与主要运动(primary
motor)皮质之间的边界上(具体的说,左腹侧前运动皮质,left ventral premotor
cortex)植入一电极,这些区域与说话能力(speech)相关。神经轴突(Neurites)开始
长到电极中,且在三或四个月内,神经轴突在电极导线上产生讯号模式(signaling
pattern),那已能无限期地维持。
植入三年後,研究者为了即时合成语音的产生,开始测试脑机界面。该系统为「遥测的(
telemetric)」 -- 那不需要穿过皮肤的导线或连结器,消除了感染风险。事实上,该电
极将神经讯号放大并转换成调频(FM)无线电讯号。这些讯号以无线方式穿过头皮传至两
线圈,那利用可溶於水的糊状物贴在志愿者的头上。线圈成为 RF 讯号的接收天线。植入
电极则透过也是贴在头上的电力线圈供应感应电力。
讯号接着被转送到一套电流生理学记录系统上,那将其数位化并储存之。所储存的尖波(
spikes,那包含有意义的资料),被送往在桌上型电脑执行的神经解码器。神经解码器的
输出成为语音合成器的输入,那也在电脑上执行。最後,语音合成器产生合成的声音(在
目前研究中,只测过三个母音的声音)。上述整个过程平均耗时 50 毫秒。
科学家解释,先前并没有神经元在言语运动区中发射的电流生理学研究。为了开发精确的
神经编码体系,他们得依赖一套已经建立好的言语运动控制(speech motor control)神
经运算模型。根据此模型,就「共振峰频率轨迹(formant frequency trajectories)」
而论,左腹侧前运动皮质中的神经元代表预期的说话声音(intended speech sounds)。
在毫无损伤的脑中,这些频率轨迹被送至主要运动皮质,在此它们被转变成要下给言语发
音器官(speech articulators,言语构音器官)的运动指令。然而,在目前研究中,这
些研究者得要解释这些频率轨迹以便将其转译成言语。为了要办到这件事,研究者开发出
一种二维共振峰频率空间,在其中,不同母音的声音可根据二种共振峰频率来标绘(其值
代表 X 与 Y 轴)。
"这项研究支持我们的假说(基於 DIVA 模型,我们的言语神经网路模型):前运动皮质
以「听觉轨迹(auditory trajectory)」来呈现「预期的言语」,亦即,(「预期的言
语」)如同一组关键频率(共振峰频率)般,在我们当作「言语」来听的「声音讯号」中
随着时间变化," Guenther 说。"换言之,我们能从前运动皮质的神经活动中直接预测预
期的声音,而非试图要分别预测所有言语发音器官的位置,然後再试着重现预期的声音(
就我们所记录的少量神经元而论,这问题更加困难)。对於神经元如何在脑中呈现言语
-- 这是某种先前未曾被研究过的东西,因为这里并没有所谓的言语动物模型 -- 此结果
提供我们初步的洞见。"
为了要证实移植区当中的神经元能以共振峰频率轨迹的方式携带言语资讯,研究者要求志
愿者试图以同步的方式说出以听觉方式呈现的母音序列。在之後的实验中,志愿者即时收
到来自语音合成器的听觉回馈。在横跨 5 个月、25 个时段的期间中,志愿者显着改善
thought-to-speech 的准确性。他的平均命中率在整个期间中,从 45% 增加到 70%,并
在最後一个时段内达到 89% 这麽高。
目前研究仅聚焦在产生一小组母音上,但研究者认为随着系统改良,将来也能够实现子音
的声音。虽然这项研究使用单一一个三线式(three-wire)电极,但在多个记录位置上使
用额外的电极,以及改善解码技术,将能快速、精确地控制语音合成器,而那可以产生广
泛的声音。
" 我们立即的计画涉及实作新的合成器,那能产生子音与母音,同时维持足供 BMI 使用
者来控制的简单性," Guenther 说。"我们也在研究硬体,那能大幅增加被记录的神经元
数量。我们预期在下一位移植接受者脑中,窃听数量至少十倍的神经元,那应能导致效能
大幅改善。"
总之,这项研究标志着永久神经义体的开发中的一个里程碑,那除了无线接收器与笔电外
,不需要大型外部硬体。先前用於通讯应用的脑机界面十分缓慢,每分钟只能产生大约
1 个字。这套新系统具有即时转换的潜力,且能帮助减少伴随着深度麻痹而来的社会孤
立。
※ 相关报导:
* A Wireless Brain-Machine Interface for Real-Time Speech Synthesis
http://dx.doi.org/10.1371/journal.pone.0008218
Frank H. Guenther, Jonathan S. Brumberg, E. Joseph Wright,
Alfonso Nieto-Castanon, Jason A. Tourville, Mikhail Panko,
Robert Law, Steven A. Siebert, Jess L. Bartels,
Dinal S. Andreasen, Princewill Ehirim, Hui Mao,
Philip R. Kennedy
PLoS ONE 4(12): e8218. Published: December 9, 2009
doi: 10.1371/journal.pone.0008218
--
原始网址:
http://only-perception.blogspot.com/2009/12/blog-post_30.html
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.136.225.89