• 视频服务网站内容更新信息的自动搜索与抽取系统及方法

    • 摘要:

      本发明提出一种视频服务网站内容更新信息的自动搜索与抽取系统,包括系统调度模块、URL组装机构造模块、xpath生成器、URL生成模块、网页下载模块、信息抽取模块和信息存储数据库.其中,系统调度模块用于协调和调度各个系统模块;URL组装机构造模块用于构造当前进行信息抽取的网站搜索结果页URL的组装机;xpath生成器用于生成搜索结果页各视频摘要信息所在子树顶节点的xpath;URL生成模块用于使用URL组装机组装搜索结果页的URL;网页下载模块用于下载指定URL的网页;信息抽取模块用于抽取下载网页的视频摘要信息,并存储到信息存储数据库;信息存储数据库用于存储抽取下来的摘要信息.本发明有效地解决了网站内容更新信息的获取问题.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN200910160626.8

    • 申请日期:

      2009.07.17

    • 公开/公告号:

      CN101599089

    • 公开/公告日:

      2009-12-09

    • 发明人:

      朱明 易荣锋

    • 申请人:

      中国科学技术大学

    • 主分类号:

      G06F17/30(2006.01)I

    • 主权项:

      1、一种视频服务网站内容更新信息的自动搜索与抽取系统,包括系统调度模块、URL(统一资源定位器)组装机构造模块、xpath(XML文档元素路径)生成器、URL生成模块、网页下载模块、信息抽取模块和信息存储数据库,所述系统调度模块,用于协调和调度各个系统模块;所述URL组装机构造模块,用于构造当前进行信息抽取的网站搜索结果页URL的URL组装机;所述xpath生成器,用于生成所述搜索结果页各视频摘要信息所在子树顶节点的xpath;所述URL生成模块,用于利用所述URL组装机组装所述搜索结果页的URL;所述网页下载模块,用于下载所述指定URL的网页;所述信息抽取模块,用于从下载的所述搜索结果页中抽取视频摘要信息,并存储到所述信息存储数据库;所述信息存储数据库,用于存储所述抽取下来的视频摘要信息.