相关反馈学术资讯 - 科技工作者之家

相关反馈，起源于信息检索系统领域，其思路是将给定查询最先返回的结果，和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义：显式反馈、隐式反馈和盲式或伪反馈。

显式反馈显式反馈是从相关性评估者那里获取的，这里的相关性表示检索文档与查询的相关程度。只有当评估者（或系统的其他用户）清楚所提供的反馈是被解释为相关性判断依据时，这种类型的反馈才能称为是显式的。

用户可能将相关性用二元或分级的相关机制来显式表示。二元相关反馈表示文档相对于给定的查询要么相关，要么不相关。而分级的相关反馈则使用数字、字母或其它描述（如“不相关”，“一点相关”，“相关”，或“很相关”）来表示文档与查询的相关程度。当评估者将结果中的文档按照相关性排序（通常时降序）时，分级的相关反馈也需要使用这种由评估者创建的文档序号形式，Google在搜索网站中实现的SearchWiki就是这样一个例子，

相关反馈信息需要结合原始查询才能提高检索性能，如著名的Rocchio算法。

性能度量在2005年左右变得流行起来，其用来衡量排名算法的有用性，其中基于显式相关反馈的性能度量是NDCG，其它的度量包括k上查准率与平均查准率。

隐式反馈隐式反馈是从用户行为中推断出来的，这些行为比如观察用户选择查看或不查看哪些文档，查看文档所持续的时间，或者浏览页面、卷动滚动条操作。

隐式反馈与显式反馈最主要的区别包括：

用户并不需要为了考虑IR系统需要而去评估相关性，而只关注自己的需要能否满足即可；

并不需要告知用户他们的行为会被用于相关反馈。

其中的一个例子是Surf Canyon浏览器扩展，基于用户交互（点击图标）和搜索结果链接页面上的时间花费，来提前从结果集中的后续页面中搜索结果。

盲式反馈伪相关反馈，也称之为盲式相关反馈，提供的是一种自动局部分析方法，它可以自动化相关反馈的手动操作部分，因此用户可不用参与额外的交互也可以获得更好的检索性能。这种方法首先通过普通检索从最相关的文档中寻找到一个初始结果，然后假定其中的前"k"排名文档是相关的，最后在这个假设条件下像前面一样进行相关反馈。过程步骤如下：

把初始查询返回的结果当成相关结果（在大多数实验中仅前k个，k位于10和50之间的数）；

使用如TF-IDF权重的方法从这些文档中选择前20-30（象征性的数字）个词语；

执行查询扩展，将这些词语加入到查询中，然后再去匹配查询所返回的文档，最终返回最相关的文档。

一些实验，如发表在(Buckley et al.1995)的Cornell SMART系统，在TREC 4实验环境中使用伪相关反馈提升了其检索系统的性能。

这种自动化技术在大多数情况下都工作正常，有证据表明甚至好于全局分析。1通过查询扩展，一些在初始查询中错过的文档能被重新获得，从而提高了整体性能。很显然，这种方法的效果非常依赖于所选择的扩展词语的质量，目前已经发现它在TREC即席任务中提高了性能。但是它又避免了自动处理过程的危险，例如，如果需要查询的是铜矿，而且位于前面的一些文档都是关于智利的铜矿，那么在查询方向上会逐渐偏向于那些与智利有关的文档。2然而，如果加入原始查询的词语与查询主题并不相关，检索质量有可能会下降，尤其是在Web搜索中，Web文档经常会覆盖多个不同的主题。

使用相关性信息利用相关性信息，可使用相关文档的内容来调整原始查询中词语的权重，也可使用这些内容将词语加入到查询中，相关性反馈经常使用Rocchio算法实现。

本词条内容贡献者为:

黄伦先 - 副教授 - 西南大学