• 一种基于启发式规则的发票货物归类方法

    • 摘要:

      本发明公开了一种基于启发式规则的发票货物归类方法,将发票上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映发票出具企业的经营信息.一方面,与企业注册时的行业代码比对,可以判断所开发票是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度.通过基于海关历史记录的实例匹配将发票货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到发票的国民经济行业分类代码.从而解决分类实例匮乏情况下从海量未规范化的发票货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201610446072.8

    • 申请日期:

      2016.06.20

    • 公开/公告号:

      CN106095759A

    • 公开/公告日:

      2016-11-09

    • 发明人:

      郑庆华 蔚文达 阮建飞 董博

    • 申请人:

      西安交通大学

    • 主分类号:

      G06F17/27(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/27(2006.01)I,G06Q30/04(2012.01)I,G,G06,G06F,G06Q,G06F17,G06Q30,G06F17/27,G06Q30/04

    • 主权项:

      一种基于启发式规则的发票货物归类方法,其特征在于,包括下述步骤:(1)发票货物名预处理a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;c.将数字加量词作为规格型号从发票货物名中删除;(2)基于搜索引擎知识库构建发票货物名的自定义词典发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典;所述基于搜索引擎知识库构建发票货物名的自定义词典,将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词;(3)基于海关历史记录实例匹配获得发票货物名的海关编码基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码;(4)人工建立海关编码到国民经济行业分类代码的映射关系所述海关编码到国民经济行业分类代码的映射关系,格式如下:

      海关编码(10位数码)国民经济行业分类代码(4位数码)
      (5)根据映射关系确定发票货物的国民经济行业分类代码对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码,完成将发票货物归类到国民经济行业分类的任务.