一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语.在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语.本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率.
发明专利
CN201510522576.9
2015.08.24
CN105205448A
2015-12-30
王亮 王威 张宇琪 范伟
中国科学院自动化研究所%富士通株式会社
G06K9/00(2006.01)I,G,G06,G06K,G06K9
G06K9/00(2006.01)I,G06K9/62(2006.01)I,G,G06,G06K,G06K9,G06K9/00,G06K9/62
一种基于深度学习的字符识别模型的训练方法,包括以下步骤:步骤S1,构建多层卷积神经网络,包括设置网络层数、卷积窗大小、每层节点数;定义一个输出层来输出字符分类的结果,每个类别标签定义一个输出结点;步骤S2,训练所述多层卷积神经网络,从而得到字符识别模型,这里目标函数为输入图像的真实标签与所述字符识别模型预测结果的交叉熵;步骤S3,增加所述多层卷积神经网络的卷积层层数得到新的多层卷积神经网络,用步骤S2得到的模型参数来初始化所述新的多层卷积神经网络卷积层的权重;步骤S4,重复步骤S2与S3,即逐渐增加卷积层层数并训练,直到识别正确率不再提高为止,得到优化的字符识别模型.