以下文章来源于神经计算与控制实验室 ,作者NCC lab
南方科技大学刘泉影老师实验室NCC lab,是以“AI和数学为核心,以研究大脑的表征和计算为基础,以控制和调节大脑功能为应用”的实验室。我们将在本公众号发布NCC lab动态、人脑智能与人工智能最新学术进展和前沿论文解析 。——刘泉影
6月28日NCC lab讨论了近期发表在Nature Communications杂志的论文《Combining predictive coding and neural oscillations enables online syllable recognition in natural speech》。
文章摘要:在自然语言的在线理解中,需要将声音流分割成离散的语言元素。theta-gamma振荡耦合与上下文的语言被认为对语言理解的过程起到了帮助作用。本文作者设计了计算模型来研究theta-gamma耦合对在线音节(syllable)识别的影响。该模型使用音节内部的时谱和theta振荡来表示音节的开始和持续时间。经过神经计算模型研究,发现预测编码和神经振荡可以结合起来解释在线动态感觉处理。
图一、自然语句在线音节的分析和识别模型及处理过程
图一为对自然语句在线音节的分析和识别模型及处理过程。
图一a上方的Top level中theta module的theta神经元模型使用下方bottom level图中slow amplitude modulation为输入,产生红色脉冲输出。Syllable onset根据预训练theta的相位产生,用于重置spectrotemporal module中的gamma活动。红色虚线表示theta振荡器的瞬时速率,用于设置gamma序列的优先速率。由这两者得到6*8的块,分为8部分(即8个gamma单元),每一部分都会单独编码计算,在最后(第8个gamma单元)进行累加,从而识别音节。图一a下方的Bottom level中,左侧图为调幅过程,由声音波获得;右侧图为时频谱,横坐标为时间,纵坐标由128个channel转化到6个channel得到。
图一b为左侧的简化版本,theta模块到gamma单位的灰色线表示gamma活动的重置,红色虚线表示从theta振荡接收到的速率信息,gamma到ω的灰色线表示音节单位的重置。
图二、音节特征直方图
图二为音节特征的直方图显示。
图二a中显示了模型模拟的220个句子中2888个音节的时长分布,其中平均音节时长为182毫秒,中位数为166毫秒。所选取的220个句子均来自TIMIT语音数据集,这220个句子是由22名不同的人每人记录10个句子所得。
图二b显示了每个句子中音节数分布,其中平均值为13.12,中位数为12.5。
图二c显示了每秒中音节数的分布,其中平均值为每秒5.2个音节,中位数为每秒5.15个音节。
图三、Precoss模型的变体 及 其性能比较
图三为precoss模型变体及其性能比较。
左侧图中显示了6种不同的模型,其中右侧的B、D、F不含theta信号,表示gamma活动不由theta信号的onset重置。Gamma到ω的灰色线表示音节单位ω由最后一个(第八个)gamma单位重置,图中A、B、C、D含有,E、F不含有,即音节单位ω不重置。A中最佳gamma速率由theta振荡(红色虚线)动态设定,为exogenous theta-gamma nesting。B中在内部设置了优选的gamma速率,为endogenous theta-gamma nesting。
右侧图显示了这6种模型的效果,其中E与F效果最差,这也说明了音节单位ω由最后一个(第八个)gamma单位重置的重要性。A与B,C与D,E与F的表现相差不多也表现了gamma活动是否由theta信号的onset重置影响结果不大。
图四、语音压缩后,模型A和B的比较
图四显示了在语音压缩后,A与B(A的gamma rate与theta相关,B的gamma rate为内在控制)的结果比较。
之前结果显示,A与B的表现结果相差不大,这是因为B中内在设置的gamma速率使得音节的持续时间与真实语音中的音节持续时间十分接近。为了探寻这两种模型之间的区别,作者将语音加速,改变音节持续时间后,再比较A与B表现效果。发现在正常语速与加速2倍的情况中,未发现A与B的显著差别,而在加速3倍时,A与B之间会有显著的区别,其中A的表现会比B更好。这说明了虽然在自然语速下,B可以取得不错的效果,但在语速变化的情况下,带有theta信号的A才会更精确的识别音节。大脑能够自如得应对语速变化的情况,这也反应了在识别音节的过程中,A比B会更加类似于大脑。
图五、BIC模型比较
图五为Bayesian information criterion(BIC,由模型参数的复杂度减去模型的最大似然函数计算得到,BIC值越小表示模型优化得更好),右侧显示了ABCDEF的BIC值,其中A的BIC值最大,F的BIC值最小。在A于B,C于D,E于F的比较中,可以看到B、D、F的BIC值更小。
图六、A模型与A‘ 模型的比较
图六显示了作者为了进一步比较A与B之间的区别,作者在B的基础上改进得到A’,再比较A与A‘的效果。
A’中使用Tr(真实的onset)代替theta对gamma进行reset。右侧结果表明在引入了真实的onset后,A‘的表现比A更好。这也说明了在引入了对gamma的调节后,模型效果得到提高。间接的说明了引入theta对gamma调节的重要性,从而表示了模型A比模型B更好。
NCC Lab的讨论:
本文工作完整,工作量大,但本文主要是模型模拟,其方法对神经信号本身的联系并不大。如果基于真是ecog信号来做,得到theta-gamma耦合与音节理解的关系,可能会是更充分的验证。
目前已经知道STG、HG区域对于语义理解至关重要;可以设计语义相关的语音刺激,记录相关脑区的大脑信号,进行解码,这对大脑中语义理解和知识编码的基础研究会有帮助。此外,通过对病人与正常人的语音刺激的大脑反应进行比较,其中的差异可能会对于不同病症的诊断或早期预测诊断起到帮助。
现在用AI基于神经信号对语句进行端对端的重建,效果已经达到很好的水平;对于音节的研究或重建,在BCI等应用上的贡献并不大,更多的是对于大脑如何进行语音分析的基础研究的贡献。
跨语言的大脑的研究更令人期待,比如音节在英文起到的作用很大而在中文起到的作用却不大,这也会导致大脑中解码的过程不同。
Reference:
Hovsepyan, S., Olasagasti, I., & Giraud, A. L. (2020). Combining predictive coding and neural oscillations enables online syllable recognition in natural speech. Nature communications, 11(1), 1-12.
写作:NCC lab 曲由之
校对:刘泉影
转载请先发邮件咨询:刘泉影,liuqy@sustech.edu.cn
点“阅读全文”,即可跳转至论文文章。