• 一种基于共振峰频率的数字语音感知哈希方法

    • 摘要:

      本发明公开了一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征.匹配过程首先对语音的粗略特征进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音进行细节特征匹配,最后获得精确匹配结果.应用于海量语音信号处理时可以省去大量不必要的匹配计算量,匹配效率将明显提高.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201610049423.1

    • 申请日期:

      2016.01.25

    • 公开/公告号:

      CN105741853A

    • 公开/公告日:

      2016-07-06

    • 发明人:

      王宏霞 任刘姣

    • 申请人:

      西南交通大学

    • 主分类号:

      G10L25/54(2013.01)I,G,G10,G10L,G10L25

    • 分类号:

      G10L25/54(2013.01)I,G,G10,G10L,G10L25,G10L25/54

    • 主权项:

      一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征;将粗略特征和细节特征分别量化为感知哈希,匹配过程通过粗略特征的匹配初步确定目标语音所在的范围,筛选出与目标语音具有相似音色的语音段,然后对筛选出的相似语音片段进行细节特征匹配,最后获得精确匹配结果;(1)基于共振峰频率的粗糙感知哈希生成:对语音进行频域分析,利用共振峰能够表征说话人音色特征这一特性,选取语音的共振峰频率作为粗略特征,采用不重叠分帧方法,提取每帧的前k个共振峰,这k个共振峰值分别与对应共振峰频率的中值进行比较,大于等于中值则当前帧的感知哈希值为1,小于中值则为0,将提取的感知哈希值按分帧的顺序排列,量化为反映语音粗略特征的粗糙感知哈希序列H1;(2)细节感知哈希序列的获得:细节感知哈希生成过程采用重叠分帧,计算每帧时域短时能量,相邻帧的短时能量差作为语音的细节特征,并量化为反映语音细节特征的细节感知哈希序列H2;(3)粗糙感知哈希与细节感知哈希结合:每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2顺序拼接起来作为当前帧最终的感知哈希序列H.