• 一种基于循环重标注自助法的行业多标签降噪方法

    • 摘要:

      本发明公开了一种基于循环重标注自助法的行业多标签降噪方法,包括步骤:首先,基于Word2Vec技术提取纳税人文本特征,基于One‑Hot编码对纳税人非文本信息进行处理得到非文本特征;其次,基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;然后,在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;最后,通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响.本发明解决了现有方法中不能划分噪声标签依据噪声标签纠正效果未达到最优就停止训练的问题.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201910865170.9

    • 申请日期:

      2019.09.12

    • 公开/公告号:

      CN110705607A

    • 公开/公告日:

      2020-01-17

    • 发明人:

      郑庆华 李碧婷 阮建飞 董博 高宇达 宓玲云 范弘铖

    • 申请人:

      西安交通大学

    • 主分类号:

      G06K9/62(2006.01),G,G06,G06K,G06K9

    • 分类号:

      G06K9/62(2006.01),G06F40/242(2020.01),G06F40/279(2020.01),G06N3/04(2006.01),G06N3/08(2006.01),G06Q40/00(2012.01),G,G06,G06K,G06F,G06N,G06Q,G06K9,G06F40,G06N3,G06Q40,G06K9/62,G06F40/242,G06F40/279,G06N3/04,G06N3/08,G06Q40/00

    • 主权项:

      1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤: 1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征; 2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型; 3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正; 4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响. 2.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征; 对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量. 3.根据权利要求2所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤: 201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合; 202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果; 单个Sigmoid神经元交叉熵损失函数的计算公式为: 式中,表示样本的原始标签,表示预测概率,N表示样本总数量,i表示第i个样本; 在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为: 式中,表示联合损失,表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,表示预测标签概率; 在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测. 4.根据权利要求3所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤3)中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降低样本集中噪声标签比例,得到更加准确的分类器模型,具体实现步骤如下: 301)设置预测概率的阈值,为了避免在标签纠正过程中,人为引入噪声,并设置阈值; 302)依据样本集的原始标签和预测概率识别噪声标签;当前模型对训练集和验证集的输入特征进行预测,分别得到训练集和验证集的预测概率,若预测概率大于阈值,则将该标签标记为噪声标签,否则,该标签极大概率为正确标签; 该模型将噪声标签分为两种类型,分别是120类型和021类型,噪声标签不同,识别方法也不同; 当分类器输出层的激活函数为Sigmoid函数的情况下,021类型的噪声标签识别方法为: 式中,表示在输出层激活函数为Sigmoid函数的情况下,021类型噪声标签的最低概率阈值,si表示输出层激活函数为Sigmoid函数,表示样本原始标签,表示样本预测概率,M表示输出层Sigmoid神经元个数,N表示样本总数量,j表示第j个神经元,i表示第i个样本,得到的即为样本序号与标签序号二元组的集合; 120类型的噪声标签的识别方法为: 式中,表示在输出层激活函数为Sigmoid函数的情况下,120类型噪声标签的最高概率阈值; 此外,与之和为1,设定的取值后,则通过该关系得到的取值; 当分类器输出层的激活函数为Softmax函数的情况下,021类型和120类型的噪声标签对于某一样本而言会成对出现,当预测概率与原始标签不同时,且预测概率对应的概率较高时,则表明该样本的标签可能会存在噪声;021类型的噪声标签识别方法为: 式中,Thso表示在输出层激活函数为Softmax函数的情况下,021类型噪声标签的最低概率阈值,so表示输出层激活函数为Softmax函数,h表示预测标签,k表示原始标签,表示样本i的预测概率,表示样本i的原始标签; 120类型的噪声标签识别方法为: 式中,Thso表示在输出层激活函数为Softmax函数的情况下,120声标签的最低概率阈值; 303)纠正样本集中的噪声标签;对训练集和验证集的噪声标签进行纠正,将021类型的噪声标签纠正为1,将210类型的噪声标签纠正为0,并用纠正后的标签替换原始标签,更新纳税人数据集. 5.根据权利要求4所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤301)中,阈值设置为0.95. 6.根据权利要求4所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤4)中,具体实现步骤如下: 401)标签纠正样本比例统计,统计训练集的原始标签和纠正标签总数,计算训练集中进行过标签纠正的样本比例,计算公式为: 式中,ψ表示训练集中进行过标签纠正的样本比例,表示训练集的原始标签,表示纠正标签,N表示样本总数,表示进行过标签纠正的样本总数; 402)将替换噪声标签后的训练集输入到分类器中,继续对分类模型进行训练,训练过程采用交叉熵损失作为模型损失函数,若验证集的损失相比上一轮训练的结果在下降,则继续对分类器进行训练,若验证集的损失不再下降,则暂停分类器训练过程;若分类器所得分类预测概率未超过阈值,认为当前样本集中无噪声标签,此时步骤401)中纠正样本比例为0,训练出的分类器为最优的分类器模型,结束模型训练,否则继续进行噪声标签的识别及纠正,并对模型进行新一轮的训练,这样多轮迭代降低噪声标签样本比例,以降低噪声标签的影响.