• 一种基于并行关联规则挖掘的发票虚开识别方法

    • 摘要:

      本发明公开了一种基于并行关联规则挖掘的发票虚开识别方法,包括以下步骤:提取所需会计期间内的发票记录,构建事务集;对不同行业明细的事务子集分别挖掘频繁项集,生成关联规则;基于不同行业明细的关联规则,计算企业的自洽性,并通过自洽性计算结果识别存在发票虚开行为的企业.本发明基于Spark并行框架进行程序设计,利用并行Apriori算法对企业上下游企业的所属行业进行关联规则挖掘,分析异常的行业组合,能够细粒度地针对不同行业明细企业的经营特点,具有并行高效的特点,能够自动、快速、有效地识别发票虚开行为.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201810436908.5

    • 申请日期:

      2018.05.09

    • 公开/公告号:

      CN108596750A

    • 公开/公告日:

      2018-09-28

    • 发明人:

      郑庆华 杨征宽 阮建飞 董博 于洪潮

    • 申请人:

      西安交通大学

    • 主分类号:

      G06Q40/00(2012.01)I,G,G06,G06Q,G06Q40

    • 分类号:

      G06Q40/00(2012.01)I,G06Q50/26(2012.01)I,G06F17/30(2006.01)I,G,G06,G06Q,G06F,G06Q40,G06Q50,G06F17,G06Q40/00,G06Q50/26,G06F17/30

    • 主权项:

      1.一种基于并行关联规则挖掘的发票虚开识别方法,其特征在于,包括以下步骤:步骤1:设计事务集构建模块,查询数据库中的企业信息表和发票记录表,得到所需会计期间内的有效发票记录,以及发票记录中购销方纳税人识别号对应的行业明细代码,汇总发票记录,得到各企业的上下游企业的行业明细代码集合,构建以上下游企业的行业明细代码集合为项集的事务,以企业的纳税人识别号作为事务唯一标识,以企业的行业明细代码作为事务所属行业,然后将所有事务汇总得到事务集,其中,所述企业信息表为存储纳税人识别号和行业明细等企业信息的数据表;所述发票记录表为存储购销方纳税人识别号、金额、税额、开票日期、作废标志等发票信息的数据表;所述会计期间为在时间上把连续不断的企业经营活动及其结果用起止日期加以划分形成的时间区间;步骤2:设计频繁项集挖掘模块,查询数据库中的行业明细代码表,得到行业明细代码集合,遍历行业明细代码集合,对每种行业明细代码,从步骤1得到的事务集中提取所属行业为该行业明细代码的事务子集,然后基于并行Apriori算法挖掘该行业明细代码的频繁项集,其中,所述行业明细代码表为存储行业明细代码、行业明细名称等行业信息的数据表;所述频繁项集为支持度大于等于最小支持度minSup的项集,其中支持度为项集在事务集中出现的频率;步骤3:设计关联规则生成模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,读取步骤2中得到的该行业明细代码对应的频繁项集,并行处理各频繁项集生成该行业明细代码的关联规则,其中,所述关联规则为置信度大于等于最小置信度minConf的强关联规则,其中置信度为关联规则前件出现时后件出现的条件概率;步骤4:设计自洽性计算模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,从步骤1得到的事务集中提取所属行业为该行业明细代码的事务子集,读取步骤3中得到的该行业明细代码对应的关联规则,并行计算事务子集中每条事务对应企业的自洽性,其中,所述自洽性为遍历事务的项集,以当前遍历项作为关联规则后件,以项集中除当前遍历项外的子集作为关联规则前件,生成的关联规则能在该事务行业明细代码对应的关联规则中匹配到的项占项集的比例;步骤5:设计发票虚开识别模块,遍历步骤2得到的行业明细代码集合,对每种行业明细代码,读取步骤4中得到的该行业明细代码计算自洽性后的事务集,对事务集中自洽性低于设定的自洽性阈值minSC的事务进行过滤,并行识别过滤后的事务集中每条事务中存在发票虚开行为的纳税人识别号,汇总得到该行业明细代码的发票虚开纳税人识别号集合,基于纳税人识别号与企业一一对应的关系,则可获得对应的存在发票虚开行为的企业.