• 一种基于PU learning的跨区域企业偷漏税识别方法

    • 摘要:

      本发明公开了一种基于PU learning的跨区域企业偷漏税识别方法,包括:首先,基于PU learning,利用源域少量带标签的正样本生成源域中无标签样本的标签;其次,通过最大化分类器差异的域适应方法构建跨区域企业偷漏税识别模型;最后,利用训练好的偷漏税识别模型对目标域的纳税数据进行偷漏税识别.本发明在源域纳税数据只有正样本和大量无标记样本的情况下,实现给纳税数据没有标签的目标域建立偷漏税识别模型的目的.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201910912953.8

    • 申请日期:

      2019.09.25

    • 公开/公告号:

      CN110866536A

    • 公开/公告日:

      2020-03-06

    • 发明人:

      郑庆华 王伊杨 董博 高宇达 张发 阮建飞 师斌 陈妍

    • 申请人:

      西安交通大学

    • 主分类号:

      G06K9/62(2006.01),G,G06,G06K,G06K9

    • 分类号:

      G06K9/62(2006.01),G06N3/04(2006.01),G06N3/08(2006.01),G06Q40/00(2012.01),G,G06,G06K,G06N,G06Q,G06K9,G06N3,G06Q40,G06K9/62,G06N3/04,G06N3/08,G06Q40/00

    • 主权项:

      1.一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,首先,基于PUlearning,利用源域少量带标签的正样本生成源域中无标签样本的标签;其次,通过最大化分类器差异的域适应方法构建跨区域企业偷漏税识别模型;最后,利用训练好的偷漏税识别模型对目标域的纳税数据进行偷漏税识别. 2.根据权利要求1所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,跨区域企业偷漏税识别模型的构建分为源域标签生成和通过最大化分类器差异的域适应方法实现跨区域偷漏税识别两部分. 3.根据权利要求2所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,源域标签生成的具体步骤包括: Step1:源域纳税数据划分 1.将源域纳税数据分为正样本集和无标注样本集 2.在无标注样本集中抽取K个样本作为实验用的无标注样本集 3.抽样后剩余的样本作为待使用样本集,记为x为的一个样本,其中 Step2:利用抽样的未标记样本和正样本训练模型 将Step1中划分的抽样的无标注样本集作为负样本,利用正样本和负样本训练一个分类器ft(x),然后利用分类器ft(x)对抽样剩余无标注样本集进行概率预测;再利用抽样可放回的方法划分数据集,进行T轮训练,并且记录剩余的未标记样本集中每个样本x被分类器ft(x)预测的次数n(x),不断地更新最终的分类器f(x)和预测次数n(x): f(x)←f(x)+ft(x) n(x)←n(x)+1 Step3:生成源域剩余标签 最终用f(x)/n(x)表示剩余无标签样本的标签概率,如果f(x)/n(x)>0.5,则标记为正样本;如果f(x)/n(x)<0.5,则标记为负样本,最终得到未标注样本集中的所有样本标签. 4.根据权利要求3所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,最大化分类器差异的域适应方法实现跨区域偷漏税识别,具体如下: 基于PU learning的跨区域企业偷漏税识别模型由两部分组成:一个特征生成器和两个偷漏税识别分类器;特征生成器先以基于PU learning生成的带标签的源域数据作为输入,生成源域纳税数据的特征边界,再以目标域的纳税数据作为输入,从而检测出源域特征边界之外的目标域样本,最后将源域和目标域纳税数据进行域适应;两个偷漏税识别分类器均以特征生成器的输出作为输入,用于识别纳税数据对应的企业是否存在偷漏税行为. 5.根据权利要求4所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,特征生成器和偷漏税识别分类器均采用深度神经网络,具体的构建步骤为: (1)构建特征生成器 特征生成器通过与偷漏税识别分类器对抗的方式,使得提取出的目标域特征在源域特征边界附近,以此来实现域适应;特征生成器是一种神经网络结构的模型,构建特征生成器的步骤包括: 1.确定特征生成器的输入层,输入层神经元数等于纳税数据的维度; 2.确定特征生成器的输出层,输出层神经元数可根据实验效果进行调整; 3.确定特征生成器隐层,隐层采用全连接网络; 记特征生成器为G,G(x)表示特征生成器的输出,x是源域和目标域纳税数据,xs表示源域的纳税数据,xt表示目标域的纳税数据;特征生成器是标准的前馈神经网络,采用BP算法更新参数; (2)构建偷漏税识别分类器 两个偷漏税识别分类器均为神经网络结构的模型,构建步骤相同,构建偷漏税识别分类器的步骤包括: 1.确定偷漏税识别分类器的输入层,输入层神经元数等于特征生成器输出层的神经元数; 2.确定偷漏税识别分类器的输出层,因为偷漏税识别属于二分类问题,所以输出层神经元数为两个,输出层激活函数采用softmax; 3.确定偷漏税识别分类器的隐层,隐层采用全连接网络; 记F1和F2分别为两个偷漏税识别分类器,F1的输出结果为向量(p11,p12),F2的输出结果为向量(p21,p22),其中,pij(i,j=1,2)是一个[0,1]的概率值,F1和F2各自的输出神经元概率之和均为1.0,输出结果p11+p21>p12+p22表示存在偷漏税行为,输出结果p11+p21<p12+p22表示不存在偷漏税行为;当模型训练完成时,企业是否偷漏税由两个偷漏税识别分类器的结果共同决定;为了方便起见,p1(y|x)和p2(y|x)分别表示F1和F2获得输入x后的输出;用d(p1(y|xt),p2(y|xt))来衡量目标域纳税数据的差异,其中d表示衡量两个概率输出之间的偏差的函数,采用L1距离: (3)偷漏税识别模型的训练 Step1:初始化神经网络参数 神经网络参数的初始化,在网络层数很深的情况下变得尤为重要;参数初始化满足以下两个条件:各层激活值不会出现饱和现象以及各层激活值不为0;Xavier初始化那个帮助减少梯度弥散问题,使得信号在神经网络中那个传递得更深,所以网络参数初始化采用Xavier初始化,具体形式表示为: 其中,nin是参数所在层的输入维度,nout是参数所在层的输出维度,Wi,j是各个神经元之间的权重; Step2:获取特定任务判别特征 为了使分类器和生成器获得特定于任务的判别特征,需要训练分类器和生成器以正确分类源域纳税数据,分类器的分类效果由损失函数表示,损失函数越小代表分类器和生成器学习到的任务特征越多,分类效果越好;偷漏税识别分类器的输出层采用softmax激活函数,训练网络以最小化交叉熵函数,优化目标见下: 其中,Xs表示源域纳税数据样本集,Ys表示源域纳税数据标签集,xs表示一个源域纳税数据样本,ys表示一个源域纳税数据标签,K表示类别数量; 使用BP算法调整模型的网络参数,学习过程由信号的正向传播与误差反向传播组成,过程包括: 1.正向传播时,输入纳税数据从特征生成器的输入层传入,经过各隐层逐层处理后,传向两个偷漏税识别分类器的输出层;若偷漏税识别分类器的输出层的实际输出与对应标签值不相同,则转入误差的反向传播阶段; 2.误差反向传播是将偷漏税识别分类器的输出误差以某种形式通过隐层向特征生成器的输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号作为修正单元权值的依据; 3.信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整的过程,也就是网络学习训练的过程,此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止; Step3:最大化目标差异 在该步骤中,不更新特征生成器G的参数,通过训练两个偷漏税识别分类器F1和F2以增加差异,从而检测出在源域特征边界外的目标域纳税数据;两个分类器的差异越大,说明有越多的目标域纳税数据在源域特征边界之外,将目标域纳税数据输入到模型中进行训练并更新偷漏税识别分类器的参数;原目标是最大化两个分类器的目标差异,这里通过对目标函数进行取反,最终将最大化目标函数转化为最小化损失函数,损失函数见下: 其中,Xt表示未标记的目标域纳税数据样本集,xt表示一个目标域纳税数据样本; 使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从偷漏税识别分类器的输出层开始到偷漏税识别分类器输入层截至向前调整的,此时改变的是偷漏税识别分类器中的网络参数,特征生成器的网络参数不进行改变; Step4:最小化目标差异 在Step3的基础上,固定两个偷漏税识别分类器的参数,通过训练特征生成器来最小化目标域纳税数据的差异,通过特征生成器与两个偷漏税识别分类器进行对抗学习,使得目标域的纳税数据尽可能在源域特征边界内,这个训练过程会进行n次,n是一个超参数,代表特征生成器与偷漏税识别分类器之间的权衡;以最小化偷漏税识别网络的损失函数为目标,优化目标见下: 使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从特征生成器的输出层开始到特征生成器输入层截至向前调整的,此时改变的是特征生成器中的网络参数,两个偷漏税识别分类器的网络参数不进行改变; (4)企业偷漏税识别 将要识别的纳税数据输入到特征生成器中,然后综合两个偷漏税识别分类器的输出结果判断企业是否存在偷漏税行为.