相关反馈

科技工作者之家 2020-11-17

相关反馈,起源于信息检索系统领域,其思路是将给定查询最先返回的结果,和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义:显式反馈、隐式反馈和盲式或伪反馈。

显式反馈显式反馈是从相关性评估者那里获取的,这里的相关性表示检索文档与查询的相关程度。只有当评估者(或系统的其他用户)清楚所提供的反馈是被解释为相关性判断依据时,这种类型的反馈才能称为是显式的。

用户可能将相关性用二元或分级的相关机制来显式表示。二元相关反馈表示文档相对于给定的查询要么相关,要么不相关。而分级的相关反馈则使用数字、字母或其它描述(如“不相关”,“一点相关”,“相关”,或“很相关”)来表示文档与查询的相关程度。当评估者将结果中的文档按照相关性排序(通常时降序)时,分级的相关反馈也需要使用这种由评估者创建的文档序号形式,Google在搜索网站中实现的SearchWiki就是这样一个例子,

相关反馈信息需要结合原始查询才能提高检索性能,如著名的Rocchio算法。

性能度量在2005年左右变得流行起来,其用来衡量排名算法的有用性,其中基于显式相关反馈的性能度量是NDCG,其它的度量包括k上查准率与平均查准率。

隐式反馈隐式反馈是从用户行为中推断出来的,这些行为比如观察用户选择查看或不查看哪些文档,查看文档所持续的时间,或者浏览页面、卷动滚动条操作。

隐式反馈与显式反馈最主要的区别包括:

用户并不需要为了考虑IR系统需要而去评估相关性,而只关注自己的需要能否满足即可;

并不需要告知用户他们的行为会被用于相关反馈。

其中的一个例子是Surf Canyon浏览器扩展,基于用户交互(点击图标)和搜索结果链接页面上的时间花费,来提前从结果集中的后续页面中搜索结果。

盲式反馈伪相关反馈,也称之为盲式相关反馈,提供的是一种自动局部分析方法,它可以自动化相关反馈的手动操作部分,因此用户可不用参与额外的交互也可以获得更好的检索性能。这种方法首先通过普通检索从最相关的文档中寻找到一个初始结果,然后假定其中的前"k"排名文档是相关的,最后在这个假设条件下像前面一样进行相关反馈。过程步骤如下:

把初始查询返回的结果当成相关结果(在大多数实验中仅前k个,k位于10和50之间的数);

使用如TF-IDF权重的方法从这些文档中选择前20-30(象征性的数字)个词语;

执行查询扩展,将这些词语加入到查询中,然后再去匹配查询所返回的文档,最终返回最相关的文档。

一些实验,如发表在(Buckley et al.1995)的Cornell SMART系统,在TREC 4实验环境中使用伪相关反馈提升了其检索系统的性能。

这种自动化技术在大多数情况下都工作正常,有证据表明甚至好于全局分析。1通过查询扩展,一些在初始查询中错过的文档能被重新获得,从而提高了整体性能。很显然,这种方法的效果非常依赖于所选择的扩展词语的质量,目前已经发现它在TREC即席任务中提高了性能。但是它又避免了自动处理过程的危险,例如,如果需要查询的是铜矿,而且位于前面的一些文档都是关于智利的铜矿,那么在查询方向上会逐渐偏向于那些与智利有关的文档。2然而,如果加入原始查询的词语与查询主题并不相关,检索质量有可能会下降,尤其是在Web搜索中,Web文档经常会覆盖多个不同的主题。

使用相关性信息利用相关性信息,可使用相关文档的内容来调整原始查询中词语的权重,也可使用这些内容将词语加入到查询中,相关性反馈经常使用Rocchio算法实现。

本词条内容贡献者为:

黄伦先 - 副教授 - 西南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。