• 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法

    • 摘要:

      本发明公开了一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法,包括商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元.商家信息和团购信息自动搜索聚合单元用于搜索聚合商家信息;商家类别的本体知识库的创建单元,用于未分类商家信息的分类过程;获取待分类商家信息单元,用于大范围获取未分类商家信息;商家信息纠错词库的创建及信息纠错单元,用于将识别错误的商家信息进行纠错;商家信息自动分类单元,用于自动获取商家信息的正确类别.本发明实施起来更方便高效,信息更准确.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201410391136.X

    • 申请日期:

      2014.08.07

    • 公开/公告号:

      CN104133913A

    • 公开/公告日:

      2014-11-05

    • 发明人:

      朱明 雷鸣

    • 申请人:

      中国科学技术大学

    • 主分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30

    • 主权项:

      一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统,其特征在于包括:商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元;商家信息和团购信息自动搜索聚合单元,自动搜索互联网上相关的热门网站,根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新数据;商家类别的本体知识库的创建单元,根据商家信息和团购信息自动搜索聚合单元中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所有文档建立相应的索引;获取商家信息单元,采用拍视频的方式获取一条街或一段路的一大片商家店名,也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像识别,得到相应的商家信息;商家信息纠错词库创建及信息纠错单元,根据商家信息和团购信息自动搜索聚合单元所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息;商家信息自动分类单元,获取待分类的商家信息,然后对该信息进行分词处理,获取关键词集合,带入商家类别的本体知识库的创建单元所创建的本体知识库,根据其所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商家信息类别.