Nature Commun：实现对自然语音中音节的在线识别

brainnews

6月28日NCC lab讨论了近期发表在Nature Communications杂志的论文《Combining predictive coding and neural oscillations enables online syllable recognition in natural speech》。

文章摘要：在自然语言的在线理解中，需要将声音流分割成离散的语言元素。theta-gamma振荡耦合与上下文的语言被认为对语言理解的过程起到了帮助作用。本文作者设计了计算模型来研究theta-gamma耦合对在线音节（syllable）识别的影响。该模型使用音节内部的时谱和theta振荡来表示音节的开始和持续时间。经过神经计算模型研究，发现预测编码和神经振荡可以结合起来解释在线动态感觉处理。

图一、自然语句在线音节的分析和识别模型及处理过程

图一为对自然语句在线音节的分析和识别模型及处理过程。

图一a上方的Top level中theta module的theta神经元模型使用下方bottom level图中slow amplitude modulation为输入，产生红色脉冲输出。Syllable onset根据预训练theta的相位产生，用于重置spectrotemporal module中的gamma活动。红色虚线表示theta振荡器的瞬时速率，用于设置gamma序列的优先速率。由这两者得到6*8的块，分为8部分（即8个gamma单元），每一部分都会单独编码计算，在最后（第8个gamma单元）进行累加，从而识别音节。图一a下方的Bottom level中，左侧图为调幅过程，由声音波获得；右侧图为时频谱，横坐标为时间，纵坐标由128个channel转化到6个channel得到。

图一b为左侧的简化版本，theta模块到gamma单位的灰色线表示gamma活动的重置，红色虚线表示从theta振荡接收到的速率信息，gamma到ω的灰色线表示音节单位的重置。

图二、音节特征直方图

图二为音节特征的直方图显示。

图二a中显示了模型模拟的220个句子中2888个音节的时长分布，其中平均音节时长为182毫秒，中位数为166毫秒。所选取的220个句子均来自TIMIT语音数据集，这220个句子是由22名不同的人每人记录10个句子所得。

图二b显示了每个句子中音节数分布，其中平均值为13.12，中位数为12.5。

图二c显示了每秒中音节数的分布，其中平均值为每秒5.2个音节，中位数为每秒5.15个音节。

图三、Precoss模型的变体及其性能比较

图三为precoss模型变体及其性能比较。

左侧图中显示了6种不同的模型，其中右侧的B、D、F不含theta信号，表示gamma活动不由theta信号的onset重置。Gamma到ω的灰色线表示音节单位ω由最后一个（第八个）gamma单位重置，图中A、B、C、D含有，E、F不含有，即音节单位ω不重置。A中最佳gamma速率由theta振荡（红色虚线）动态设定，为exogenous theta-gamma nesting。B中在内部设置了优选的gamma速率，为endogenous theta-gamma nesting。

右侧图显示了这6种模型的效果，其中E与F效果最差，这也说明了音节单位ω由最后一个（第八个）gamma单位重置的重要性。A与B，C与D，E与F的表现相差不多也表现了gamma活动是否由theta信号的onset重置影响结果不大。

图四、语音压缩后，模型A和B的比较

图四显示了在语音压缩后，A与B（A的gamma rate与theta相关，B的gamma rate为内在控制）的结果比较。

之前结果显示，A与B的表现结果相差不大，这是因为B中内在设置的gamma速率使得音节的持续时间与真实语音中的音节持续时间十分接近。为了探寻这两种模型之间的区别，作者将语音加速，改变音节持续时间后，再比较A与B表现效果。发现在正常语速与加速2倍的情况中，未发现A与B的显著差别，而在加速3倍时，A与B之间会有显著的区别，其中A的表现会比B更好。这说明了虽然在自然语速下，B可以取得不错的效果，但在语速变化的情况下，带有theta信号的A才会更精确的识别音节。大脑能够自如得应对语速变化的情况，这也反应了在识别音节的过程中，A比B会更加类似于大脑。

可以

图五、BIC模型比较

图五为Bayesian information criterion（BIC，由模型参数的复杂度减去模型的最大似然函数计算得到，BIC值越小表示模型优化得更好），右侧显示了ABCDEF的BIC值，其中A的BIC值最大，F的BIC值最小。在A于B，C于D，E于F的比较中，可以看到B、D、F的BIC值更小。

图六、A模型与A‘ 模型的比较

图六显示了作者为了进一步比较A与B之间的区别，作者在B的基础上改进得到A’，再比较A与A‘的效果。

A’中使用Tr（真实的onset）代替theta对gamma进行reset。右侧结果表明在引入了真实的onset后，A‘的表现比A更好。这也说明了在引入了对gamma的调节后，模型效果得到提高。间接的说明了引入theta对gamma调节的重要性，从而表示了模型A比模型B更好。

NCC Lab的讨论：

本文工作完整，工作量大，但本文主要是模型模拟，其方法对神经信号本身的联系并不大。如果基于真是ecog信号来做，得到theta-gamma耦合与音节理解的关系，可能会是更充分的验证。
目前已经知道STG、HG区域对于语义理解至关重要；可以设计语义相关的语音刺激，记录相关脑区的大脑信号，进行解码，这对大脑中语义理解和知识编码的基础研究会有帮助。此外，通过对病人与正常人的语音刺激的大脑反应进行比较，其中的差异可能会对于不同病症的诊断或早期预测诊断起到帮助。
现在用AI基于神经信号对语句进行端对端的重建，效果已经达到很好的水平；对于音节的研究或重建，在BCI等应用上的贡献并不大，更多的是对于大脑如何进行语音分析的基础研究的贡献。
跨语言的大脑的研究更令人期待，比如音节在英文起到的作用很大而在中文起到的作用却不大，这也会导致大脑中解码的过程不同。

Reference:

Hovsepyan, S., Olasagasti, I., & Giraud, A. L. (2020). Combining predictive coding and neural oscillations enables online syllable recognition in natural speech. Nature communications, 11(1), 1-12.

写作：NCC lab 曲由之

校对：刘泉影

转载请先发邮件咨询：刘泉影，liuqy@sustech.edu.cn

点“阅读全文”，即可跳转至论文文章。

继续滑动看下一个