【顶会论文介绍-第五期】SIGIR 2019 | 基于生成对抗网络的个性化搜索

原创 RUCIR 中国中文信息学会信息检索专委会

研究动机：

在网络搜索中，由于查询的语义多义性等问题，用户的真实搜索意图往往难以被准确地捕捉。因此个性化搜索的目标是根据用户的搜索历史以及历史兴趣偏好来推测当前的用户意图，并据此调整搜索引擎返回的文档列表排序，提升搜索引擎效果。传统的做法是抽取用户搜索历史中的点击特征以及话题特征来构建用户画像来表征用户偏好。近年来，深度学习以其能够自动学习数据特征的性能而被成功的运用于个性化搜索。但是数据驱动的深度模型的训练非常依赖于训练数据质量，个性化搜索深度模型则非常依赖于每个用户的历史数据。但是在个性化搜索中，用户的个人搜索数据一方面十分有限，另一方面则由于可能存在的点击偏差等问题，导致不同的点击文档和未点击文档之间反映的用户偏好的可信程度以及重要程度也往往并不一样，噪声较大。这些数据问题限制了深度模型的训练。本文提出利用对抗神经网络来增强用户数据，利用生成器生成高质量的更能反映用户精细偏好的负例文档及相应权重促进判别器判断文档相关性的训练，同时也利用判别器的反馈指导生成器的训练。

模型框架：

本文用来表示用户u在当前查询q之前的历史历史查询。首先将中包含的会话分为两类：历史会话作为用户长期历史，以及当前会话作为用户短期历史。每个会话包含一系列查询，而每个查询包含一个查询字串以及搜索引擎对该查询返回的结果列表，那么最终目标是对查询重排其相应的结果列表，使其更符合用户意图。则对抗训练优化的目标可以写为：

其中为判别器的参数，目标为学习评估文档的相关性，而为生成器的参数，目标为拟合相关文档的分布。

为了更好地进行pairwise训练以及防止下溢，我们最终将判别器的优化函数转换为如下形式：

其中为生成器提供的文档对权重，因此判别器的目标是尽可能使得相关文档的得分高于不相关文档，尤其是对于权重更大的文档对。

同时由于文档空间的不连续性，难以直接生成文档向量，因此我们参考IRGAN，将文档生成问题转换为采样问题，优化目标为：

即使得更难被判别器分辨的不相关文档有更高的采样概率被作为高质量的负例。

模型构建：

基于文档选择的模型：

在优化目标确定后，接下来讨论具体的模型结构和。我们首先提出了第一种模型的具体实现——基于文档选择的模型。在该模型中，生成器和分类器采用了一致的结构。

首先利用层次化RNN和注意力机制构建长期用户画像，再利用单层的RNN和短期历史构建用户短期画像，最终根据文档与查询以及两部分用户画像的匹配得分得出文档相关性。而生成器则将相关性进行归一化得出文档的采样概率分布，即：

基于查询生成的模型：

根据个性化搜索的特点，我们进一步提出了基于查询生成的模型。不同于上一个模型中生成器直接学习文档相关性，这里我们提出利用用户历史信息，生成器先生成更符合用户意图的查询，再计算文档的相关性与采样概率分布。通过这种方式，我们能够更好的推测和表示用户意图，从而更好的评估在该用户意图下，各文档的相关性。因此判别器的结构与上一个模型一致，而对于生成器，则首先计算每个查询的生成概率：

同时，利用判别器提供的相关性计算方式，可按如下方式计算文档与这些生成查询之间的相关性分布：

最后根据条件概率公式得到最终文档的相关性以及生成器的梯度更新策略：

具体的，生成器采用RNN作为长期历史编码器，以及层次化的RNN作为短期历史编码器，以及一个解码器计算每个词的生成概率，最终得到每个查询的生成概率，即：

实验结果和分析：

我们和基于传统特征的个性化模型P-Click、SLTB以及深度模型HRNN、HRNN+进行了对比，从中可以看到深度模型的效果好于基于传统特征的模型，而本文提出的两种判别器的PSGAN-D和QG-D的效果要显著好于其他的对比模型。而其中基于查询生成的模型中的判别器QG-D效果最好。

进一步我们研究了模型在不同查询上的表现，横轴代表不同查询分类，纵轴代表相比于原始排序（搜索引擎给出的排序）MAP的提升：

首先点击熵越大的查询表征用户在该查询下的点击越不相同，从在不同点击熵的查询上的模型实验结果可以看到，个性化模型确实在点击熵大于等于1 的查询上表现更好。同时本文提出的两个判别器相比于其他模型在点击熵大于等于1的查询上优化效果更为明显，这一点符合实验预期。而第二种判别器的效果也好于第一种。

此外，可以看到个性化模型在重复查询上的效果好于非重复查询，这是因为重复查询由于曾经出现在用户历史中，的确具有更多的个性化特征，模型因此更容易对其进行判断。但是从结果中可以看到本文提出的模型在重复查询上与深度模型效果相似，而在非重复查询上有明显提升。一个可能的原因是，我们的模型可以通过对抗训练更好地学习评估文档相关性，但并不十分依赖于重复出现的历史行为。即使当用户第一次发出查询时，该模型也可以成功地预测文档的个性化相关性。这进一步证实了我们模型的有效性。

此外，在文中我们还进行了关于点击位置偏差的实验，即不同的相关文档与不相关文档的定义方式，详细可以看原文。

总结：

本文提出了基于对抗神经的个性化搜索模型框架，来解决个性化搜索中存在的用户数据有限且存在较多噪音的问题。我们提出了两种模型的具体实现，基于文档选择的模型和基于查询生成的模型，以提高模型搜索结果个性化的效果。在第二种模型当中，我们提出先生成查询以推测用户意图，再利用生成查询计算文档相关性。实验结果证明了我们提出的模型的有效性。

论文链接（点击“阅读原文”可获取论文）：

https://github.com/playing-code/PSGAN/blob/master/PSGAN.pdf

作者：

RUCIR

编辑：

毛佳昕庞亮

继续滑动看下一个