• 基于双门控递归单元解码的喉镜图像识别方法

    • 摘要:

      本发明公开了一种基于双门控递归单元解码的喉镜图像识别方法,主要解决现有方法无法用于光学喉镜图像,及生成的医学文本报告准确性差和可读性不足的问题.其实现方案为:获取光学喉镜图像数据集以及相应的医学文本报告,并对医学文本报告进行分词和编码操作得到标签数据集;对图像数据集进行缩放和中心化处理,并与标签数据集一同记为训练数据集;构造一个包含13个卷积层、4个池化层和2个门控递归单元的综合网络,并使用训练数据集,利用自适应学习率优化算法对其训练;将一张无标签的光学喉镜图像作为测试数据输入到训练好的综合网络,得到测试图像识别后对应的医学报告.本发明提高了生成文本的准确性和可读性,可用于对喉镜图像的识别.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN202010882806.3

    • 申请日期:

      2020.08.28

    • 公开/公告号:

      CN112052889A

    • 公开/公告日:

      2020-12-08

    • 发明人:

      缑水平 刘宁涛 马兰 李国栋 毛莎莎 童诺 姚瑶 李阳阳

    • 申请人:

      西安电子科技大学

    • 主分类号:

      G06K9/62(2006.01),G,G06,G06K,G06K9

    • 分类号:

      G06K9/62(2006.01),G06K9/46(2006.01),G06N3/04(2006.01),G06N3/08(2006.01),G,G06,G06K,G06N,G06K9,G06N3,G06K9/62,G06K9/46,G06N3/04,G06N3/08

    • 主权项:

      1.一种基于双门控制循环单元解码的喉镜图像识别方法,其特征在于,包括如下: (1)获取患者的喉镜图像,记为喉镜数据集P,并取得对应喉镜图像的医学文本报告集合,记为Q; (2)由医学文本报告集合Q获取标签数据集R: (2a)对Q中所有报告进行分词操作得到词库,并对词库进行one-hot编码操作进而得到每个词的one-hot向量,并得到词语-one-hot编码映射矩阵D; (2b)将报告中的每个词语使用对应的one-hot向量表示,得到标签数据集R; (3)获取训练数据集T: (3a)将喉镜数据集P中每张图像缩小到224*224,并对缩小后的每张图像进行中心化,使每个通道像素均值为0,再从中心化后的喉镜图像中取出一张喉镜图像,记为Z,将P中剩余喉镜图像组成中心化后的喉镜数据集,记为P'; (3b)将中心化后的喉镜数据集P'与标签数据集R进行合并,得到训练数据集T; (4)构建双门控制循环网络M并进行初始化: 构造包括1个卷积神经网络和2个门控递归单元的双门控制循环网络M,卷积网络的输出特征作为第一门控递归单元和第二门控递归单元的输入,第一门控递归单元用于提取注意力权重,第二门控递归单元使用卷积网络的输出和注意力权重获取喉镜数据集P'的输出; 将中心化后的喉镜数据集P'作为该双门控制循环网络M的输入,使用均匀分布初始化双门控制循环网络M的权重W,将双门控制循环网络M的偏置b均初始化为数值0, 将中心化后的喉镜数据集P'对应的医学报告作为双门控制循环网络M的期望输出; (5)使用训练数据集T,训练双门控制循环网络M: (5a)打乱训练数据集T中图像的顺序,从中选择32个喉镜图像及其标签,记为一个训练批次{I,C},其中I为一个训练批次中的喉镜图像,C为与I对应的医学文本报告标签; (5b)将喉镜图像I输入到双门控制循环网络M,经过双门控制循环网络M的前向传播得到喉镜图像I对应的输出O,计算输出O与医学文本报告标签C之间的交叉熵,得到双门控制循环网络M的损失函数L; (5c)使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,即设初始学习速率η=0.0001,使用误差反向传播机制对双门控制循环网络M的权重W和偏置b进行更新; (5d)重复(5a)到(5c),直到达到最大迭代次数N=3000,得到训练好的双门控制循环网络M; (6)利用训练好的双门控制循环网络M获得测试数据喉镜图像Z的报告: (6a)将测试数据喉镜图像Z输入到训练好的双门控制循环网络M中,经过双门控制循环网络M中卷积神经网络的前向传播,得到光学喉镜图像Z的特征向量S; (6b)将光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元进行前向传播,得到注意力权重A; (6c)将光学喉镜图像Z的特征向量S与注意力权重A相乘后,输入到双门控制循环网络M中的第二个门控递归单元进行前向传播,得到光学喉镜图像Z的医学报告的输出O,并依据词语-one-hot编码转换映射矩阵D得到Z的医学文本报告; (6d)根据输出O和(2a)中获取的词语-one-hot编码映射矩阵D,得到光学喉镜图像Z的医学文本报告. 2.根据权利要求1所述的方法,其中步骤(3a)中对缩小后的每张图像中心化,是用缩小后图像每个点的像素值减去(104,116,122),得到中心化后图像的像素值(x',y',z'): (x',y',z')=(x-104,y-116,z-122) 其中,(x,y,z)为原始图像的像素值. 3.根据权利要求1所述的方法,其中(4)中构造的双门控制循环网络M,包括13个卷积层、4个池化层和2个门控递归单元层,其结构关系为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第一门控递归单元层→第二门控递归单元层. 该4个池化层均为2*2最大池化,池化步长均为2*2; 该13个卷积层的卷积核大小均为3*3,卷积步长均为1*1,激活函数均为修正线性单元ReLU; 该第一卷积层、第二卷积层的卷积核个数均为64; 该第三卷积层、第四卷积层的卷积核个数均为128; 该第四卷积层、第五卷基层、第六卷积层的卷积核个数均为256; 该第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层的卷积核个数均为512. 4.根据权利要求1所述的方法,对(4)中使用的双门控制循环网络M的权W和b进行初始化,其公式如下: Wi~U(-0.01,0.01) bi=0 其中,Wi表示双门控制循环M的一组权重值,bi表示双门控制循环网络M的一组偏置值,i∈{1,2,3,4,5,6,7},U(·,·)表示均匀分布,即双门控制循环网络M的权重W服从-0.01到0.01的均匀分布. 5.根据权利要求1所述的方法,其中(5b)中输出O与标签C之间的交叉熵,得到双门控制循环网络M的损失函数L,其公式如下: 其中,C表示输入喉镜图像I的标签,O表示双门控制循环网络M针对喉镜图像I的输出,Clog(O)为输出O与医学文本报告标签C之间的交叉熵. 6.根据权利要求1所述的方法,其中(5c)中使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,设置初始学习率η=0.0001,对双门控制循环网络M的权重W和偏置b进行更新,得到当前优化后的权重W'和偏置b': 其中,i∈{1,2,3,4,5,6,7},表示Wi的梯度,表示bi的梯度,·表示点乘.