• 一种基于半监督聚类的查询扩展方法

    • 摘要:

      本发明提供了一种基于半监督聚类的查询扩展方法,包括如下步骤:(1)查询似然估计语言模块对用户查询进行初次检索,返回检索结果的前n个文档;(2)对初次检索结果中的前k个文档进行人工标注,分成相关文档集与不相关文档集两类;(3)通过约束和距离融合的半监督聚类算法对前n个文档进行分析,提取与查询相关的文档作为反馈文档;(4)根据反馈文档,用扩展词选取模块选取扩展词,将扩展词和原始查询组成新的查询.本发明通过对少量标注文档与查询相关性的学习,能够较准确的估计出大量未知文档与查询的相关性,提高了反馈文档的质量,从而有效的提高了检索的查全率和查准率.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201310241385.6

    • 申请日期:

      2013.06.18

    • 公开/公告号:

      CN103324707A

    • 公开/公告日:

      2013-09-25

    • 发明人:

      杨静 刘宁 张健沛

    • 申请人:

      哈尔滨工程大学

    • 主分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30

    • 主权项:

      一种基于半监督聚类的查询扩展方法,其特征在于:步骤1:查询似然估计语言模块对用户查询进行初次检索,返回检索结果的前n个文档;步骤2:对初次检索结果中的前k个文档进行人工标注,分成相关文档集与不相关文档集两类;步骤3:通过约束和距离融合的半监督聚类算法对前n个文档进行分析,提取与查询相关的文档作为反馈文档;步骤4:根据反馈文档,用扩展词选取模块选取扩展词,将扩展词和原始查询组成新的查询.