【速览】TIP 2020 |基于性格辅助多任务学习的大众化和个性化图像美学评价

原创李雷达，祝汉城中国图象图形学学会CSIG

。

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于性格辅助多任务学习的大众化和个性化图像美学评价

Leida Li

^{1，2}

，Hancheng Zhu

^{1}

，Sicheng Zhao

^3

，Guiguang Ding

^4

， and Weisi Lin

^5

^1

中国矿业大学，

^2

西安电子科技大学，

^3

University of California at Berkeley，

^4

清华大学，

^5

Nanyang Technological University

TIP 2020

撰稿人：李雷达，祝汉城

推荐理事：林宙辰

原文标题：Personality-Assisted Multi-Task Learning for Generic and Personalized Image Aesthetics Assessment

论文地址：https://ieeexplore.ieee.org/abstract/document/8970458/

◆ ◆ ◆ ◆

简介

现有的图像美学评价方法主要针对大多数人的平均美学进行评价。然而，不同用户对图像的审美偏好却各不相同，这主要是因为用户具有高度主观特性。性格特征作为一种重要的主观特性，是塑造用户审美偏好的关键因素。本文提出了一个基于性格辅助多任务学习的大众化和个性化图像美学评价方法。提出的方法框架包括两个阶段，在第一个阶段，利用孪生网络提出了一种权重共享的多任务学习模块，用于同时预测图像大众化的美学分布和偏好该图像的用户性格特征。在第二个阶段，基于多任务学习模块中预测得到用户的性格特征和大众化美学分数，进一步引入任务间融合学习模块，最终生成针对特定用户的个性化图像美学评价模型。该方法在两种公开的图像美学数据库进行了性能评估，实验结果表明，提出的方法在大众化和个性化的图像美学评价任务上都优于现有主流的方法。

背景及简介

近些年，社会和经济的巨大进步极大地满足了人们在日常生活中方方面面的美丽诉求，人们不仅仅要求商品在功能上的完善，而且还要求商品是具有美感的。因此，研究人们对图像的审美感知对社会和经济的发展具有重要的促进作用。早期的研究者受到摄影规则的启发，认为图像的美感可以通过确定的摄影规则进行衡量和评价，进而提出了相应的图像美学评价方法[1]。这些方法主要是把审美主体（人类）看成具有相同的审美准则，仅从图像的客观特性对人们的主观感受进行评估。但是，由于人们所处的社会环境、教育背景和情感经历的不同，他们的审美准则也会各不相同，对同一幅图像的审美感受也会存在一定的差异。如图1所示，不同的用户对图像的审美评分存在显著差异。虽然图像的平均分数越高表示图像越能满足大众的审美感知需求，但是无法有效地反映出特定用户潜在的个性化审美。因此，人们对图像的审美感知具有高度主观性，可以通过借助这种主观特性来辅助图像美学评价。

由于用户的性格特征是影响其对图像审美偏好的重要因素[3]，因此在构建图像美学评价模型中需要结合用户的性格特征。在文献[4]中，作者认为图像的大众化美学评分会受到人类通用的审美判断决定，这通常与他们的性格因素有关。研究还表明，大五性格特征是人类进行视觉审美判断的通用因素，与他们的审美体验有着稳定的关系[5]。因此，在判断一幅图像的大众化美学时，评价者的性格特征是非常重要的辅助信息。此外，偏好图像的审美属性（如色彩色调、三分构图法、景深）可以有效地用于预测用户的大五性格特征[2]，这些审美属性是大众化图像美学评价的重要因素[6]。因此，图像的大众化美学评价和偏好图像的用户性格特征预测是两个相关任务。多任务学习方法[7]可以有效地获取包含在多个相关任务中的有用信息，从而提高每个任务的性能。

图 1 FLICKR-AES数据库[2]上的示例图像以及五位不同的用户对它们的美学评分和对应的平均评分。美学分数的范围为从1到5。

基于以上动机，本文采用多任务学习方法同时学习图像的大众化美学和用户的大五性格特征，并进一步通过引入任务间的融合学习，利用用户的大五性格特征辅助构建其个性化图像美学评价模型。

本文提出的算法

本文方法的网络结构框架如图2所示。该框架包括两个阶段。在第一阶段，设计了一个包含孪生网络的多任务学习框架同时预测图像美学分布和用户的大五性格特征，针对目前单一图像数据库中缺乏同时含有性格特征和美学评价标签的问题，通过将大众化美学数据和性格预测数据对多任务学习模块进行联合训练来获取共同的特征表示。在第二阶段，借助于已构建的多任务学习模块输出的图像大众化美学分数和用户大五性格特征，并引入任务间的融合学习最终得到针对特定用户的个性化图像美学评价模型。本文方法称为性格辅助的图像美学评价（Personality-Assisted Image Aesthetic Assessment, PA_IAA）。

图 2 基于性格辅助多任务学习的图像美学评价框架图

多任务学习模块：

在多任务学习模块中，采用性格特征预测数据库[8]和大众化美学评价数据库[2] [9]分别对网络中各自的任务进行模型优化。目的是通过参数共享的方式来获取两个相关任务的有用信息，这通常通过共享隐含层和各自的任务输出层来实现。本文采用的多任务学习模型建立在ImageNet预训练的卷积神经网络上，同时删除了最后一个卷积层之后的全连接层，并使用全局平均池（Global Average Pooling, GAP）来获取共享向量 $\boldsymbol{d}$ 。通过参数共享的方式构建孪生网络。在此基础上，利用大众化美学数据库和性格特征预测数据库分别构建大众化美学评价和性格特征预测两个任务。

大众化美学评价任务：在此任务中，假设 $\left \{ I_{a}^{i},s_{a}^{i} \right \}_{i-1}^{N_{a}}$ 表示大众化美学评价数据库的训练集，其中 $N_{a}$ 表示用于训练的图像数量。 $\mathbf{s}_{a}^{i}= \left \{ s_{a_n}^{i} \right \}_{n-1}^{N}$ 表示第 $i$ 幅图像的美学分布，并且概率之和 $\sum _{n-1}^{N}s_{a_n}^{i}$ 为1。其中， $a_n$ 表示第 $n$ 个被标注的美学分数，并且 $N$ 表示被标注的美学分数的总数量。对于AVA数据库[9]来说，由于图像被标注的美学分数范围为 $[1, 10]$ 之间，所以 $N=10$ ， $a_1=1$ ， $a_N=10$ 。对于FLICKR-AES数据库[2]来说，由于图像被标注的美学分数范围为 $[1, 5]$ 之间，所以 $N=5$ ， $a_1=1$ ， $a_N=5$ 。因此，在共享向量 $\boldsymbol{d}$ 的基础上，增加两个节点分别为1024和512的全连接层，进一步得到美学特征向量 $\boldsymbol{d}_{a}$ 。因为大众美学评价任务预测的美学分布之和为1，所以本文采用Softmax 激活函数生成预测的美学分布 $\hat{\boldsymbol{s}}_{a}^{i}=\left \{ \hat{s} _{a_{n}}^{i}\right \}_{n-1}^{N}$ ，可以通过如下公式计算得到：

其中， $\boldsymbol{W}_{a}= \left \{ \mathrm{w}_{a_{n}} \right \}_{n-1}^{N}$ 表示美学特征向量 $\boldsymbol{d}_{a}$ 的权重。然后，利用欧式距离作为大众化美学评价任务的损失函数 $L_{a}$ ：

在得到预测的图像美学分布 $\left \{ \hat{s} _{a_{n}}^{i}\right \}_{n-1}^{N}$ 之后，大众化美学分数可以通过如下公式计算得到：

获取的大众化美学分数可以定量地衡量图像的美学质量。

性格特征预测任务：在该任务中，假设 $\left \{ \mathit{I}_{p}^{u_{m}} \right \}_{m-1}^{M}$ 表示性格特征预测数据库的第 $u$ 位训练用户的偏好图像集，其中用户的大五性格特征为 $\mathbf{s}_{p}^{u}= \left \{ s_{p}^{u_{i}} \right \}_{i=1}^{5}$ （ $u\in \left \{ 1,2,3,...\mathit{U} \right \}$ ）， $\mathit{M}$ 表示每一位用户偏好的图像数量， $\mathit{U}$ 表示训练用户的数量。本文在多任务学习模块中大众化美学评价任务的同时引入了性格特征预测任务。因此，在共享向量 $\boldsymbol{d}$ 的基础上，也增加两个节点分别为1024和512的全连接层，进一步得到性格特征向量 $\boldsymbol{d}_{p}$ 。对于第 $\mathit{u}$ 位用户偏好的第 $\mathit{m}$ 幅图像，利用Tanh激活函数得到预测的用户大五性格特征 $\hat{\boldsymbol{s}}_{p}^{u_{m}}=\left \{ \hat{s} _{a_{n}}^{i}\right \}_{n-1}^{N}$ ，可以通过如下公式计算得到：

其中， $\mathbf{w}_{p}$ 表示性格特征向量 $\boldsymbol{d}_{p}$ 的权重。然后同样采用欧式距离作为性格特征预测任务的损失函数 $L_{p}$ ：

通过这种方式，可以从一幅图像得到预测的大五性格特征，即为偏好此图像的用户大五性格特征。

任务间融合模块：

在多任务学习模块中获取的图像大众化美学分数和偏好该图像的用户大五性格特征的基础上，本文方法开始关注特定用户对图像的个性化审美偏好问题。由于用户的性格特征是影响其对图像的审美偏好的重要主观因素，因此用户个性化的审美偏好可以通过其特有的性格特征来建模。为了学习具有不同性格特征的用户对图像不同的审美偏好，本文方法引入了任务间融合学习来微调已构建的多任务学习模型，从而进一步地得到用户的个性化图像美学评价模型。假设 $\left \{ I_{b}^{i},s_{b}^{i} \right \}_{i=1}^{N_{b}}$ 表示特定用户的个性化图像美学评价训练集，对于被该用户评价过的第 $i$ 幅训练图像来说，预测得到的个性化美学分数 $\hat{s}_{b}^{i}$ 可以通过如下公式计算得到：

其中, $\mathbf{w}_b=\left \{ \mathcal{w}_{b}^{1},\mathcal{w}_{b}^{2},...,\mathcal{w}_{b}^{5}\right \}$ 表示用户对从图像中预测的大五性格特征的权重，也就是，如果该用户与偏好此图像的大五性格特征具有较高一致性，则权重较高；反之，则权重较低。 $\hat{s}_{a}^{i}$ 和 $\hat{\mathbf{s}}_{p}^{i}$ 分别表示多任务学习模块对第 $i$ 幅图像预测得到的大众化美学分数和大五性格特征。然后，同样利用欧式距离作为任务间融合的损失函数 $L_{b}$ ，通过如下公式计算得到：

通过这种方式，特定用户对图像的个性化美学分数

\hat{s}_{b}^{i}

可以通过训练好的任务间融合模块预测得到。

模型训练：

本文提出的模型的训练过程包括两个阶段。在第一阶段中，采用两个数据库（大众化美学评价和性格特征预测）中的训练数据对提出的多任务学习模块通过对应任务的损失函数进行联合优化：

$L=L_{a}+\gamma L_{p}$

其中， $\gamma$ 表示平衡两个损失函数的系数，在实验中设置为1。在第二阶段中，由于每位用户对图像的审美标注数据的数量相对有限，直接通过训练深度模型来学习特定用户对图像的个性化审美是一项具有挑战性的任务，这是因为深度模型有效训练需要大量带标注的数据。因此，本文把训练好的多任务学习模块作为先验模型，并固定多任务学习模块的参数，再通过用户的个性化审美训练数据对任务间融合模块的损失 $L_{b}$ 函数进行优化来微调模型参数。在多任务学习模块和任务间融合模块中，采用随机梯度下降法（Stochastic Gradient Descent, SGD）来最小化损失函数。最后，本文提出的方法不仅可以得到图像的大众化美学分数而且还可以得到特定用户对该幅图像的个性化美学分数。

实验结果与分析

数据库：

本文方法在目前应用最广泛的大众化图像美学评价数据库AVA、个性化图像美学评价数据库FLICKR-AES和性格特征预测数据库PsychoFlickr上进行实验验证。

AVA数据库中包括超过250,000幅图像，其中每幅图像都被78~594位用户进行美学评分，图像的美学分数在1分到10分之间。在本文方法的大众化美学评价任务中，采用图像的美学分布作为监督标签进行模型训练。其中，超过230,000幅图像被选取用于模型训练，剩余大约20,000幅图像作为测试图像。

FLICKR-AES数据库包括40,000幅图像，其中每幅图像被大约5位用户进行美学评分，图像的美学分数在1分到5分之间。该数据库选取总共被173位用户进行美学评分的35,263幅图像用于大众化美学评价任务，其余被37位用户进行美学打分的4,737幅图像用于训练每位用户的个性化美学评价模型。每位用户进行评分的图像数量从105到171不等。

PsychoFlickr数据库主要用于从偏好图像推断用户的性格特征。在这个数据库中，收集了在Flickr网站上的300位用户以及他们偏好的60,000幅图像（每位用户200幅图像）。每位用户的大五性格特征包括开放性、责任性、外向性、亲和性和神经质，通过BFI-10调查问卷得到。通过该数据库，可以把用户的大五性格特征和对应的偏好图像用于性格特征预测模型的训练。

模型设置：

本文方法采用两个流行的深度网络（Inception-v3和DenseNet121）作为多任务学习模块的主干网络，这两个深度网络都是在ImageNet上进行预训练的。图像尺寸被调整到 $224\times224\times3$ 大小（DenseNet121）或 $299\times299\times3$ 大小（Inception-v3）来适应深度网络模型的输入。在多任务学习过程中，共享层和特定任务层的初始学习率分别设置为 $1e-5$ 和 $1e-4$ 。在任务间融合过程中，初始学习率设置为 $1e-4$ 。网络模型的超参数设置为：权重衰减因子为 $1e-5$ ，动量设置为0.9，batch的大小设置为50，每个epoch学习率下降因子为0.9，epoch的总数设置为50。

性能指标：

为了与现有的大众化图像美学评价方法和个性化图像美学评价方法进行比较，本文采用整体准确率（Accuracy, ACC）、斯皮尔曼相关系数（Spearman Rank Order Correlation Coefficient, SROCC）和地球移动距离（Earth Mover’s Distance, EMD）作为性能指标进行评估。

实验比较：

为了全面地验证本文提出方法的有效性，首先，把多任务学习模块中的两个任务与目前主流的大众化图像美学评价方法和用户性格特征预测方法进行性能比较；然后，把在任务间融合模块中针对特定用户的个性化图像美学评价模型与现有主流的方法进行性能比较。

大众化图像美学评价：

大众化图像美学评价可以分为三个任务：美学二分类、美学分数回归和美学分布预测。在多任务学习模块中的大众化美学评价任务虽然为美学分布预测，但是美学分布可以通过计算转化成美学分数和美学二分类结果。表1列出了本文提出的方法和对比方法在AVA数据库上针对大众化图像美学评价的预测性能，其中最好的性能用粗体进行显示。由于美学二分类方法只能通过ACC进行比较，美学分数回归方法可以通过ACC和SROCC进行比较，而美学分布预测方法可以通过上述三个指标进行比较。从表中可以看出，对于美学二分类任务，提出方法的准确率是可以取得最高的分类准确率。当单独使用美学评价任务训练深度模型时，本文提出的方法也可以达到与现有主流方法相当的性能。在加入性格特征预测任务时，分类准确率可以提高2.4%（DenseNet121）和2.8%（Inception-v3）。在美学分数回归和美学分布预测方面，本文提出的DenseNet121(aesthetics)和Inception-v3(aesthetics)也可以取得与谷歌公司提出的NIMA性能相当。当美学评价任务和性格特征预测任务进行同时训练时，本文提出的模型可以取得最好的性能。这说明了多任务学习模块在共同学习一幅图像的美学分布和偏好该图像的用户大五性格特征方面的有效性。本文提出的多任务学习模块可以利用从两个领域（美学和性格）的相关任务中学到有用信息来提高大众化美学评价任务的性能。

表 1 提出的方法与现有方法在AVA数据库中的性能比较

用户性格特征预测：

为了验证所提出的多任务学习模块对用户性格特征预测任务是否也有促进作用，本文将提出的方法与几种主流的性格特征预测方法进行了比较。采用十折交叉验证（Ten-fold cross-validation）方法来避免随机误差，首先把PsychoFlickr数据库中的300位用户以及他们对应的偏好图像随机划分成十个子集，然后利用其中九个子集作为训练集，其余一个子集作为测试集。这样的实验重复执行了10次，并把每次计算得到的平均结果作为最终预测性能。表2中列出了本文提出的方法和目前主流方法在PsychoFlickr数据库上进行性能比较的结果，其中最好的结果用粗体进行突出显示。当在多任务学习中单独采用性格特征预测任务训练本文提出的深度模型时，提出的方法显著均优于另外两种方法。当性格特征预测任务与大众化美学评价任务同时用于联合训练模型时，提出的方法可以获取比单独采用性格特征预测任务训练模型时更好的预测性能，这说明多任务学习模块在性格特征预测方面优于单独采用性格特征预测任务训练的模型，说明本文提出的多任务学习模块对用户的大五性格特征预测任务也具有促进作用。

表 2 提出的方法与现有方法在PsychoFlickr数据库上的性能比较（SROCC）

个性化图像美学评价：

因为本文提出方法的最终目的是针对特定用户的个性化图像美学评价，所以接下来通过实验来验证本文方法在针对特定用户个性化审美方面的评价性能。本文方法与目前主流方法在FLICKR-AES数据库的进行了性能比较。在本实验中，首先利用FLICKR-AES和PsychoFlickr数据库中的训练集获取多任务学习模块，然后通过微调的方式分别获取FLICKR-AES数据库中的37位测试用户相应的个性化图像美学评价模型。对于每一位用户，他/她进行美学标注的图像被分成两个组，即， $k$ 幅图像用于模型微调，剩余的图像用户模型测试。为了避免随机误差，针对每一位用户，本文方法都进行了50次重复实验并把平均结果和标准差进行了展示。为了验证多任务学习模块使用性格特征预测任务的有效性，我们将多任务学习模块中性格特征预测任务替换为另一个数据库上的美学分布预测任务，这个模型称为MT_IAA方法。表3列出了本文提出的方法和现有方法在FLICKR-AES数据库中的性能比较（SROCC），其中以粗体突出显示最佳结果。从表中可以看出，本文提出的方法优于其它的个性化图像美学评价模型。此外，提出的方法比MT_IAA的性能表现要好很多，说明多任务学习模块的性格特征预测任务对个性化图像美学评价做出了显著的贡献。特别是当选用10幅图像进行模型微调时，提出的模型的预测性能优于其它对比方法。相比之下，当选取100幅图像进行模型微调时，提出的模型可以进一步地提高相对于其它方法的性能。这证明了本文提出模型的有效性，该模型可以利用从图像中提取的性格特征来辅助构建符合特定用户的个性化图像美学评价模型。

表 3 提出的方法与现有方法在FLICKR-AES数据库中的性能比较（SROCC）

可视化分析：

图3展示了AVA数据库中的一些示例图像以及通过本文提出的模型预测的美学分布和大五性格特征。美学分布和归一化平均分数的预测结果和真实结果也展示在每幅图像右侧，预测得到归一化到

[-1, 1]

之间的大五性格特征也展示在美学分布的右侧。从图中可以看出，本文模型的多任务学习模块预测得到的图像美学分布与真实的美学有较好的一致性。从图像预测的大五性格特征中，可以总结为如下：1）被高责任心和高亲和性用户偏好的图像可能具有更高的大众化审美分数，然而具有低美学分数的图像可能会被低责任性和低亲和性的用户所偏好（图3(a)），这个证实了章节4.1.3的发现，负责任和友好的人偏好的图像在审美方面更容易被他人认可；2）具有低美学分数的图像可能会被高神经质的用户所偏好，这表明神经质的用户往往喜欢有些封闭和黑暗场景的图像，这种审美不容易被他人接受（图3(d)）。

图 3 AVA数据库中的一些示例图像以及通过本文提出的PA_IAA(Inception-v3)模型预测的美学分布和大五性格特征。Pred.和GT分别表示预测和真实美学分数。O表示开放性，C表示责任性，E表示外向性，A表示亲和性，N表示神经质

为了探究性格特征对用户个性化审美偏好的影响，在图4中展示了两组由FLICKR-AES数据库中的两个测试用户进行评价的示例图像。通过图像美学分布计算得到的平均分数可以作为图像的大众化美学分数。对于第一行中的三幅图像，大众化美学分数几乎相同（0.44、0.44和0.40）。然而，用户1对这三幅图像的美学评分具有显著的差异（0.80，0.60和0.20）。特别地，用户1对图4(a)给出了很高的审美评分，这幅图像被具有较高外向性（0.21）和较低神经质（-0.12）的用户所偏好。相比之下，具有较低外向性（-0.13）和较高神经质(0.14)的用户喜欢图4(c)中的图像，但是用户1这幅图像具有较低的审美评分。这表明用户1可能是一个具有较高外向性以及较低神经质的人。对于第二行中的三幅图像，大众化美学分数与用户2的个性化审美评分不一致。这主要是因为用户2可能是一个具有高外向性和高神经质的人，他对与他相似性格特征用户偏好的图像具有很高的审美评分，而对与他相反性格特征用户偏好的图像的审美评分较低。此外，与大众化美学分数相比，PA_IAA模型预测得到的图像个性化美学分数与用户的个性化审美感知具有较高的一致性。

图 4 FLICKR-AES数据库中两位测试用户评价的一些示例图像。预测的大五性格特征和个性化的审美分数显示在每幅图像的下面，每幅图像下面还展示了图像的大众化分数和用户的个性化美学分数的真实结果。美学分数范围在0到1之间，大五性格特征在-1到1之间。

小结

本文提出了一种基于性格辅助多任务学习的大众化和个性化图像美学评价方法（PA_IAA），该方法不仅可以预测图像的大众化美学分数和针对特定用户的个性化图像美学分数，而且还可以预测偏好该图像的用户大五性格特征。提出的多任务学习模块将性格特征预测数据和大众化美学评价数据用于联合训练一个参数共享的孪生网络来获取共同表示特征，该模块可以同时预测图像的美学分布和偏好此图像的用户大五性格特征，通过在同一网络中整合两个相关领域（性格和美学）的数据，可以同时提高大众化图像美学评价任务和用户性格特征预测任务的性能。此外，提出的模型还引入了任务间融合的方法来学习用户大五性格特征对其个性化视觉审美偏好的影响。在两个公开的图像美学评价数据库上的大量实验结果表明，本文提出的模型优于现有的主流图像美学评价方法。

参考文献

[1] Deng Y, Loy C C, Tang X. Image aesthetic assessment: An experimental survey. IEEE Signal Processing Magazine, 2017.

[2] Ren J, Shen X, Lin Z, et al. Personalized image aesthetics. ICCV. 2017.

[3] Guntuku S C, Zhou J T, Roy S, et al. Who likes what, and why? Insights into personality modeling based on image ‘likes’. IEEE Transactions on Affective Computing, 2018.

[4] Kim W H, Choi J H, Lee J S. Objectivity and subjectivity in aesthetic quality assessment of digital photographs. IEEE Transactions on Affective Computing, 2018.

[5] Cleridou K, Furnham A. Personality correlates of aesthetic preferences for art, architecture, and music. Empirical Studies of the Arts, 2014.

[6] Kong S, Shen X, Lin Z, et al. Photo aesthetics ranking network with attributes and content adaptation. ECCV, 2016.

[7] Caruana R. Multitask learning. Machine learning, 1997.

[8] Segalin C, Perina A, Cristani M, et al. The pictures we like are our image: continuous mapping of favorite pictures into self-assessed and attributed personality traits. IEEE Transactions on Affective Computing, 2017.

[9] Murray N, Marchesotti L, Perronnin F. AVA: A large-scale database for aesthetic visual analysis. CVPR, 2012.

继续滑动看下一个