学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
基于性格辅助多任务学习的大众化和个性化图像美学评价
◆ ◆ ◆ ◆
近些年,社会和经济的巨大进步极大地满足了人们在日常生活中方方面面的美丽诉求,人们不仅仅要求商品在功能上的完善,而且还要求商品是具有美感的。因此,研究人们对图像的审美感知对社会和经济的发展具有重要的促进作用。早期的研究者受到摄影规则的启发,认为图像的美感可以通过确定的摄影规则进行衡量和评价,进而提出了相应的图像美学评价方法[1]。这些方法主要是把审美主体(人类)看成具有相同的审美准则,仅从图像的客观特性对人们的主观感受进行评估。但是,由于人们所处的社会环境、教育背景和情感经历的不同,他们的审美准则也会各不相同,对同一幅图像的审美感受也会存在一定的差异。如图1所示,不同的用户对图像的审美评分存在显著差异。虽然图像的平均分数越高表示图像越能满足大众的审美感知需求,但是无法有效地反映出特定用户潜在的个性化审美。因此,人们对图像的审美感知具有高度主观性,可以通过借助这种主观特性来辅助图像美学评价。
由于用户的性格特征是影响其对图像审美偏好的重要因素[3],因此在构建图像美学评价模型中需要结合用户的性格特征。在文献[4]中,作者认为图像的大众化美学评分会受到人类通用的审美判断决定,这通常与他们的性格因素有关。研究还表明,大五性格特征是人类进行视觉审美判断的通用因素,与他们的审美体验有着稳定的关系[5]。因此,在判断一幅图像的大众化美学时,评价者的性格特征是非常重要的辅助信息。此外,偏好图像的审美属性(如色彩色调、三分构图法、景深)可以有效地用于预测用户的大五性格特征[2],这些审美属性是大众化图像美学评价的重要因素[6]。因此,图像的大众化美学评价和偏好图像的用户性格特征预测是两个相关任务。多任务学习方法[7]可以有效地获取包含在多个相关任务中的有用信息,从而提高每个任务的性能。
图 1 FLICKR-AES数据库[2]上的示例图像以及五位不同的用户对它们的美学评分和对应的平均评分。美学分数的范围为从1到5。
基于以上动机,本文采用多任务学习方法同时学习图像的大众化美学和用户的大五性格特征,并进一步通过引入任务间的融合学习,利用用户的大五性格特征辅助构建其个性化图像美学评价模型。
本文方法的网络结构框架如图2所示。该框架包括两个阶段。在第一阶段,设计了一个包含孪生网络的多任务学习框架同时预测图像美学分布和用户的大五性格特征,针对目前单一图像数据库中缺乏同时含有性格特征和美学评价标签的问题,通过将大众化美学数据和性格预测数据对多任务学习模块进行联合训练来获取共同的特征表示。在第二阶段,借助于已构建的多任务学习模块输出的图像大众化美学分数和用户大五性格特征,并引入任务间的融合学习最终得到针对特定用户的个性化图像美学评价模型。本文方法称为性格辅助的图像美学评价(Personality-Assisted Image Aesthetic Assessment, PA_IAA)。
图 2 基于性格辅助多任务学习的图像美学评价框架图
多任务学习模块:
在多任务学习模块中,采用性格特征预测数据库[8]和大众化美学评价数据库[2] [9]分别对网络中各自的任务进行模型优化。目的是通过参数共享的方式来获取两个相关任务的有用信息,这通常通过共享隐含层和各自的任务输出层来实现。本文采用的多任务学习模型建立在ImageNet预训练的卷积神经网络上,同时删除了最后一个卷积层之后的全连接层,并使用全局平均池(Global Average Pooling, GAP)来获取共享向量
大众化美学评价任务:在此任务中,假设
其中,
在得到预测的图像美学分布
获取的大众化美学分数可以定量地衡量图像的美学质量。
性格特征预测任务:在该任务中,假设
其中,
任务间融合模块:
在多任务学习模块中获取的图像大众化美学分数和偏好该图像的用户大五性格特征的基础上,本文方法开始关注特定用户对图像的个性化审美偏好问题。由于用户的性格特征是影响其对图像的审美偏好的重要主观因素,因此用户个性化的审美偏好可以通过其特有的性格特征来建模。为了学习具有不同性格特征的用户对图像不同的审美偏好,本文方法引入了任务间融合学习来微调已构建的多任务学习模型,从而进一步地得到用户的个性化图像美学评价模型。假设
其中,
模型训练:
本文提出的模型的训练过程包括两个阶段。在第一阶段中,采用两个数据库(大众化美学评价和性格特征预测)中的训练数据对提出的多任务学习模块通过对应任务的损失函数进行联合优化:
其中,
本文方法在目前应用最广泛的大众化图像美学评价数据库AVA、个性化图像美学评价数据库FLICKR-AES和性格特征预测数据库PsychoFlickr上进行实验验证。
AVA数据库中包括超过250,000幅图像,其中每幅图像都被78~594位用户进行美学评分,图像的美学分数在1分到10分之间。在本文方法的大众化美学评价任务中,采用图像的美学分布作为监督标签进行模型训练。其中,超过230,000幅图像被选取用于模型训练,剩余大约20,000幅图像作为测试图像。
FLICKR-AES数据库包括40,000幅图像,其中每幅图像被大约5位用户进行美学评分,图像的美学分数在1分到5分之间。该数据库选取总共被173位用户进行美学评分的35,263幅图像用于大众化美学评价任务,其余被37位用户进行美学打分的4,737幅图像用于训练每位用户的个性化美学评价模型。每位用户进行评分的图像数量从105到171不等。
PsychoFlickr数据库主要用于从偏好图像推断用户的性格特征。在这个数据库中,收集了在Flickr网站上的300位用户以及他们偏好的60,000幅图像(每位用户200幅图像)。每位用户的大五性格特征包括开放性、责任性、外向性、亲和性和神经质,通过BFI-10调查问卷得到。通过该数据库,可以把用户的大五性格特征和对应的偏好图像用于性格特征预测模型的训练。
模型设置:
本文方法采用两个流行的深度网络(Inception-v3和DenseNet121)作为多任务学习模块的主干网络,这两个深度网络都是在ImageNet上进行预训练的。图像尺寸被调整到
性能指标:
为了与现有的大众化图像美学评价方法和个性化图像美学评价方法进行比较,本文采用整体准确率(Accuracy, ACC)、斯皮尔曼相关系数(Spearman Rank Order Correlation Coefficient, SROCC)和地球移动距离(Earth Mover’s Distance, EMD)作为性能指标进行评估。
实验比较:
为了全面地验证本文提出方法的有效性,首先,把多任务学习模块中的两个任务与目前主流的大众化图像美学评价方法和用户性格特征预测方法进行性能比较;然后,把在任务间融合模块中针对特定用户的个性化图像美学评价模型与现有主流的方法进行性能比较。
大众化图像美学评价:
大众化图像美学评价可以分为三个任务:美学二分类、美学分数回归和美学分布预测。在多任务学习模块中的大众化美学评价任务虽然为美学分布预测,但是美学分布可以通过计算转化成美学分数和美学二分类结果。表1列出了本文提出的方法和对比方法在AVA数据库上针对大众化图像美学评价的预测性能,其中最好的性能用粗体进行显示。由于美学二分类方法只能通过ACC进行比较,美学分数回归方法可以通过ACC和SROCC进行比较,而美学分布预测方法可以通过上述三个指标进行比较。从表中可以看出,对于美学二分类任务,提出方法的准确率是可以取得最高的分类准确率。当单独使用美学评价任务训练深度模型时,本文提出的方法也可以达到与现有主流方法相当的性能。在加入性格特征预测任务时,分类准确率可以提高2.4%(DenseNet121)和2.8%(Inception-v3)。在美学分数回归和美学分布预测方面,本文提出的DenseNet121(aesthetics)和Inception-v3(aesthetics)也可以取得与谷歌公司提出的NIMA性能相当。当美学评价任务和性格特征预测任务进行同时训练时,本文提出的模型可以取得最好的性能。这说明了多任务学习模块在共同学习一幅图像的美学分布和偏好该图像的用户大五性格特征方面的有效性。本文提出的多任务学习模块可以利用从两个领域(美学和性格)的相关任务中学到有用信息来提高大众化美学评价任务的性能。
表 1 提出的方法与现有方法在AVA数据库中的性能比较
用户性格特征预测:
为了验证所提出的多任务学习模块对用户性格特征预测任务是否也有促进作用,本文将提出的方法与几种主流的性格特征预测方法进行了比较。采用十折交叉验证(Ten-fold cross-validation)方法来避免随机误差,首先把PsychoFlickr数据库中的300位用户以及他们对应的偏好图像随机划分成十个子集,然后利用其中九个子集作为训练集,其余一个子集作为测试集。这样的实验重复执行了10次,并把每次计算得到的平均结果作为最终预测性能。表2中列出了本文提出的方法和目前主流方法在PsychoFlickr数据库上进行性能比较的结果,其中最好的结果用粗体进行突出显示。当在多任务学习中单独采用性格特征预测任务训练本文提出的深度模型时,提出的方法显著均优于另外两种方法。当性格特征预测任务与大众化美学评价任务同时用于联合训练模型时,提出的方法可以获取比单独采用性格特征预测任务训练模型时更好的预测性能,这说明多任务学习模块在性格特征预测方面优于单独采用性格特征预测任务训练的模型,说明本文提出的多任务学习模块对用户的大五性格特征预测任务也具有促进作用。
表 2 提出的方法与现有方法在PsychoFlickr数据库上的性能比较(SROCC)
个性化图像美学评价:
因为本文提出方法的最终目的是针对特定用户的个性化图像美学评价,所以接下来通过实验来验证本文方法在针对特定用户个性化审美方面的评价性能。本文方法与目前主流方法在FLICKR-AES数据库的进行了性能比较。在本实验中,首先利用FLICKR-AES和PsychoFlickr数据库中的训练集获取多任务学习模块,然后通过微调的方式分别获取FLICKR-AES数据库中的37位测试用户相应的个性化图像美学评价模型。对于每一位用户,他/她进行美学标注的图像被分成两个组,即,
表 3 提出的方法与现有方法在FLICKR-AES数据库中的性能比较(SROCC)
可视化分析: