• 一种基于html网页的数据抽取系统

    • 摘要:

      本发明属于计算机网络技术领域,具体为一种基于html网页的数据抽取系统.其由xml解析器,html引擎以及数据管理器三个模块组成.本发明的优点在于:只需要在xml文件中描述html网页中哪些节点信息需要抓取,以及xml中其他一些配置信息,就可以快速的抓取所需要的数据,其方法简单、快捷.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201310200116.5

    • 申请日期:

      2013.05.27

    • 公开/公告号:

      CN103309954A

    • 公开/公告日:

      2013-09-18

    • 发明人:

      王新 陈功锁 权恒星

    • 申请人:

      复旦大学

    • 主分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30

    • 主权项:

      一种基于html网页的数据抽取系统,其特征在于:其由xml解析器,html引擎以及数据管理器三个模块组成;其中:所述xml解析器模块负责解析sysconfig.xml文件,得到系统初始化参数、页面的url地址和目标节点的描述信息;所述html引擎模块首先验证sysconfig.xml文件配置信息的有效性,如果有效则继续执行,否则提示用户检查xml文件配置信息;xml文件配置通过验证之后,根据配置信息中的页面链接地址,获取该页面的html文档,然后再调用html解析器来解析html文档,根据sysconfig.xml中配置的目标节点选择器描述信息,获得html中目标元素,从而获得该元素的数据;所述数据管理模块主要是负责数据的持久化工作,根据用户在sysconfig.xml中配置的数据保存方式,选择相应的数据管理器来完成数据的持久化工作;所述系统进行数据抽取的工作流程如下:首先,html引擎模块根据xml解析器模块获得的html页面url地址,通过http get请求获取目标网页文档;接着xml解析器模块根据xml文件中的配置目标节点选择器,描述具有相同html页面结构的目标节点;再经过我们的html 引擎模块解析,得到我们想要的目标节点的结构化数据;最后由数据管理器模块根据配置文件中配置的数据保存方式将其保存在相应的介质中.