• 一种基于深度对抗迁移学习的企业偷漏税识别方法

    • 摘要:

      本发明公开了一种基于深度对抗迁移学习的企业偷漏税识别方法,包括:首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别.本发明通过利用源区域的纳税数据,构建适用于目标区域的偷漏税识别模型,解决了因目标区域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201910065095.8

    • 申请日期:

      2019.01.23

    • 公开/公告号:

      CN109948645A

    • 公开/公告日:

      2019-06-28

    • 发明人:

      郑庆华 吴映潮 高宇达 阮建飞 董博 宓玲云 李碧婷 吴琰

    • 申请人:

      西安交通大学

    • 主分类号:

      G06K9/62(2006.01),G,G06,G06K,G06K9

    • 分类号:

      G06K9/62(2006.01),G06N3/04(2006.01),G06N3/08(2006.01),G06Q40/00(2012.01),G,G06,G06K,G06N,G06Q,G06K9,G06N3,G06Q40,G06K9/62,G06N3/04,G06N3/08,G06Q40/00

    • 主权项:

      1.一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数,该模型框架由特征提取网络、区域判别网络、偷漏税识别网络三部分组成,为了使偷漏税识别网络在目标区域上有较好的识别性能,区域判别网络调整特征提取网络的特征提取能力,使得特征提取网络可以提取出源区域和目标区域纳税数据的共同特征;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别. 2.根据权利要求1所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,具体包括以下步骤: 1)纳税数据预处理 纳税数据中不是所有的纳税人属性都有助于企业偷漏税识别,只有少部分的属性有助于偷漏税识别;因此对纳税数据进行预处理,并采用随机森林算法提取出有助于偷漏税识别的纳税人属性; 2)构建区域间企业偷漏税识别模型框架 基于深度对抗迁移学习的企业偷漏税识别模型框架由三部分组成:特征提取网络、区域判别网络和偷漏税识别网络;其中特征提取网络以预处理后的数据作为输入,提取出不同地区纳税数据的共同特征,区域判别网络和偷漏税识别网络以特征提取网络的输出作为输入,区域判别网络用于判别数据来源于哪一区域,偷漏税识别网络用于识别纳税数据是否存在偷漏税行为; 3)确定偷漏税识别模型的网络参数 Step1.初始化网络模型参数 神经网络的训练过程中参数调整是基于梯度下降法进行优化的,梯度下降法在训练开始给每一个参数赋予初始值,当网络层数较深时,初值的选取对模型的性能影响很大,所以设置合适的初值是非常必要的;为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化; Xavier初始化以均匀分布的方式实施初始化,具体形式如下: 其中n是参数所在层的输入维度,m是参数所在层的输出维度,θ=[θf,θy,θd]是参数矩阵,θf,θy,θd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数; Step2.确定优化目标 特征提取网络、区域判别网络和偷漏税识别网络,其分别对应的参数θf,θy,θd的选择需要权衡偷漏税识别网络和区域判别网络的结果;如果只考虑偷漏税识别网络,训练出来的模型可能出现过拟合现象,使得网络对源区域的纳税数据具有很好的识别能力但是对目标区域的纳税数据的识别效果很差;因此要保证特征提取网络所提取的特征是两个区域纳税数据的共同特征,同时偷漏税识别网络利用提取的特征准确地进行偷漏税识别; 特征提取网络提取共同特征的能力由区域判别网络的损失表示,损失函数越大代表特征网络的提取能力越好;偷漏税识别网络的损失表示偷漏税识别的效果,损失函数越小代表偷漏税识别效果越好;为了最小化偷漏税识别网络的损失函数同时最大化区域判别网络的损失函数,在优化目标中给区域判别网络的损失函数取反,最终得到的整个模型的损失函数,以最小化整体的损失函数为优化目标; 最小化整体的损失函数的形式化表达为: 其中θf,θy,θd分别代表特征提取网络、偷漏税识别网络和区域判别网络的参数,是偷漏税识别网络的损失函数,表示由第i条源区域的纳税数据得出的偷漏税损失,n表示源区域纳税数据的数量;是区域判别网络的损失函数,表示由第i条纳税数据得出的区域判别损失,n′表示目标区域纳税数据的数量,N表示源区域和目标区域的数据总量;其中λ是平衡系数; 使用BP算法调整模型的网络参数,BP算法参数调整是从网络的输出层开始从后向前调整,因此模型参数调整的过程先调整偷漏税识别网络参数,然后调整区域判别网络参数,最后调整特征提取网络参数; Step3.调整偷漏税识别网络参数θy 利用Step2确定的优化目标调整偷漏税识别网络的参数,通过找到参数使得 在实际训练中先初始化参数然后利用BP算法更新参数,更新的方法如下: 其中Gy表示偷漏税识别网络,θy是偷漏税识别网络参数,μ是学习速率; Step4.调整区域判别网络参数θd 利用Step2确定的优化目标调整区域判别网络的参数,通过找到参数使得 在实际训练中先初始化参数然后利用BP算法更新区域判别网络参数,更新的方法如下: 其中Gd表示区域判别网络,θd是区域判别网络参数,μ是学习速率; Step5.调整特征提取网络参数θf 利用Step2确定的优化目标调整特征提取网络的参数,通过找到参数使得 在实际训练中先初始化参数然后利用BP算法更新特征提取网络参数,更新的方法如下: 其中Gf表示特征提取网络,θf是特征提取网络参数,μ是学习速率; θf的更新过程需要对区域判别网络的梯度进行反转,使得特征提取网络所提取的特征是不同区域纳税数据的共同特征,为实现梯度反转,引入特殊梯度反转层; 梯度反转层在特征提取网络Gf和区域判别网络Gd之间,当反向传播过程通过梯度反转层时,梯度反转层将梯度乘以-1,即变为将梯度反转层视为一个函数由描述其前向和反向传播行为的两个方程分别为: 其中I是单位矩阵,确定模型参数之后利用特征提取网络和偷漏税识别网络即可识别目标区域的纳税数据是否具有偷漏税行为; 4)企业偷漏税识别 根据预测模型识别目标区域的纳税数据是否存在偷漏税行为,将所要识别的纳税数据经过预处理输入到特征提取网络,然后利用特征提取网络的输出作为偷漏税识别网络的输入,根据偷漏税识别网络的输出判断是否具有偷漏税行为,偷漏税识别网络输出结果大于0.5即存在偷漏税行为. 3.根据权利要求2所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,步骤1)中,数据预处理具体步骤如下: Step1.构建随机森林 用有放回抽样的方法从源区域带标记的纳税数据中选取m个样本作为训练集,从所有的纳税人属性中抽取n个属性作为决策树分类特征;利用信息增益选取最优属性,以该属性作为决策树分支准则创建决策树,且决策树的生成过程不做任何减枝,重复有放回抽样k次,生成k个决策树; Step2.对随机森林中每个节点计算对应纳税人属性的基尼指数 在随机森林中,使用基尼指数来表示每个决策树中纳税人属性的重要性,使用下式计算基尼指数: 其中|D|表示从源区域带标记的纳税数据中选取的样本数量,q表示纳税人属性,n表示类别的数量这里的类别有两种即偷漏税和非偷漏税,表示数据D中第i类的比率,V表示属性q的所有可能取值的集合,|Dv|表示属性q的值是V的所有数据的数量,表示数据DV中第i类的比率; Stept3.计算纳税人属性的Gini Importance(GI) 用Gini Importance(GI)表示纳税人属性在随机森林中的重要性,利用Step2计算的基尼指数,使用下式计算每个属性的GI: 其中q表示纳税人属性,n表示属性q在随机森林中分割节点的次数,C(i)表示样本分裂的数量; Step4.选取核心纳税人属性 选取对偷漏税识别影响大的纳税人属性作为偷漏税识别模型的输入简化模型的复杂度,对于每一个纳税人属性,GI代表了该属性在随机森林中的重要程度,选取前N个GI值最大的纳税人属性用于偷漏税识别. 4.根据权利要求3所述的一种基于深度对抗迁移学习的企业偷漏税识别方法,其特征在于,步骤2)中,特征提取网络、区域判别网络和偷漏税识别网络这三个部分都是深度神经网络,具体的构建如下: Step1.构建特征提取网络 特征提取网络的目的是提取不同区域之间数据的相同特征,同时最大程度的保留不同区域之间数据的特有属性;构造输入层神经元的数量等于数据预处理后数据的总维数;以预处理后的数据作为网络的输入,以特征提取的结果作为网络的输出,记Gf(·;θf)为特征提取网络,参数为θf,具体的特征提取网络采用标准的前馈神经网络,其参数更新采用BP算法; Step2.构建偷漏税识别网络 令输入层的神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;偷漏税识别网络是一个二分类任务的分类器,该网络的输出神经元数量为1,输出结果为区间[0,1]之间的概率值,其中输出大于0.5表示存在偷漏税行为,输出小于0.5表示不存在偷漏税行为;记Gy(·;θy)为企业偷漏税识别网络,参数为θy;以最小化偷漏税识别网络的损失函数为目标,更新网络的参数用于提高偷漏税识别网络的识别能力,损失函数为: 其中Gy(Gf(x;θf);θy)表示偷漏税识别网络的输出,Gy以θy为参数,以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示源区域的纳税数据,θf表示特征提取网络的参数,y表示源区域样本数据的标签; Step3.构建区域判别网络 区域判别网络输入层神经元的数量为特征提取网络输出层的数量,以特征提取网络的输出作为输入;该网络是一个二分类任务的分类器,输出神经元数量为1,输出结果为区间[0,1]之间的概率值,和偷漏税识别网络的输出结果不同,区域判别网络的输出结果表示数据来源于哪个区域,输出结果大于0.5表示数据来源于源区域,输出结果小于0.5表示数据来源于目标区域,记Gd(·;θd)为区域判别网络,参数为θd,损失函数计算区域判别网络的判别能力,其形式化表达为: 其中Gd(Gf(x;θf);θd)表示区域判别网络的输出,Gd以θd为参数以Gf(x;θf)为输入,Gf(x;θf)是特征提取网络的输出,x表示纳税数据,θf表示特征提取网络的参数,d表示纳税数据来源于哪一区域.