• 一种基于正例与未标注学习的发票虚开识别方法及系统

    • 摘要:

      本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统.本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201910636175.4

    • 申请日期:

      2019.07.15

    • 公开/公告号:

      CN110532542A

    • 公开/公告日:

      2019-12-03

    • 发明人:

      郑庆华 宓玲云 董博 阮建飞 吴映潮 李碧婷 张发

    • 申请人:

      西安交通大学

    • 主分类号:

      G06F17/27(2006.01),G,G06,G06F,G06F17

    • 分类号:

      G06F17/27(2006.01),G06K9/62(2006.01),G06Q40/00(2012.01),G,G06,G06F,G06K,G06Q,G06F17,G06K9,G06Q40,G06F17/27,G06K9/62,G06Q40/00