探究平均准确度AP指标的缺陷及其影响学术资讯

来源：中国科学杂志社

摘要

平均准确度 AP 是计算机视觉领域物体检测算法的重要性能评价指标, 长期用于相关学术研究成果的定量比较. 作者在实践中发现 AP 指标存在缺陷不能准确反映物体检测算法的数量准确性. 作者具体分析了 AP 存在缺陷的两种表现, 首先是 AP 定义和计算方法允许虚警出现时召回率不变, 出现一个召回率对应多个准确度的情况, AP 值计算仅和该召回率对应的最大准确度有关, 使得准确度降低的虚警检测被 AP 忽略或者称为被 AP 隐藏. 其次, 发现在高召回率区域, AP 对于准确度的增量和对于召回率的增量偏好不同, 且偏向于召回率增加, 这意味着检测算法增加虚警对增加 AP 值更有益. AP 值评价指标的缺陷有很大的危害, 首先导致该领域研究存在人为反复调整阈值从而获得高 AP 值的可能, 其次能够增强物体检测数量准确性的研究方法被长期抑制, 阻碍了该领域的创新发展, 最后导致追求高 AP 值的学术研究与追求数量准确性的实际应用严重分离, 很多学术成果在实际运用中无法达到应用的要求.

基于上述分析, 作者呼吁对 AP 指标进行批判式的改进, 以弥合学术研究和实际需求的鸿沟, 促进技术创新和产业运用良性互动.

关键词物体检测, 平均准确度, 数量准确性, 评价指标, 深度学习

探究平均准确度AP指标的缺陷及其影响

窦勇, 乔鹏, 靳若春

中国科学: 信息科学, 2019, 49(10): 1369-1382

近年来随着深度学习技术在计算机视觉的图片分类和物体检测领域取得突破性进展, 提升了人们对人工智能技术在实际应用中的期望. 比如在视频监控领域, 计算机自动对室内视频图像进行人体检测, 可以及时发现异常情况, 大幅度降低监控值班人员工作强度. 这项工作可以概括为对室内视频图像自动进行人体检测, 需要报告室内人数、每个人的位置. 在对人体数量和位置进行准确检测的基础上, 可以对人个体身份进行确认、对人的个体行为进行检测, 进一步对人与人之间的关系进行分析. 所以基于计算机视觉的人工智能技术在智能监控应用领域具有非常广泛的应用前景. 根据应用的需求, 物体检测是指给定图片, 准确地检测到图片中的物体, 准确性包括物体的类别、位置和数量等.

但是在实际应用中采用平均准确度(average precision, AP)衡量的多种主流物体检测算法, 远远没有达到实际应用的预期. 当前主流的通用物体检测方法和专门的人头检测方法, 一直是计算机视觉领域非常活跃的研究热点, 每年都有新方法不断刷新物体检测的性能. 其中绝大多数算法都采用 AP 值来衡量物体检测的性能, 例如 2017 年 CVPR 会议中的 41 篇文章, ICCV 会议中的 34 篇文章都采用了 AP 值来评价各类算法的性能. 以目前典型的物体检测算法 Faster R-CNN 为例, 针对咖啡厅数据集进行人头检测实验, 首先用训练集进行人头检测训练, 然后用测试集进行测试, 其 AP 指标可以达到 0.81, 是一个非常不错的性能. 但是将检测结果可视化出来后, 发现每张图像上除了一些人头检测不到的情况外 (漏检), 还有相当数量的检测框并没有框在人头上, 而是框在其他物体上 (虚检). AP 指标所反映的检测性能似乎与目标的数量准确性没有正相关关系.

图1. Faster R-CNN 在 Brainwash 测试集上每幅图人头检测框数量和正确标注框数量差的分布

如图1, 横轴是检测框数量和正确标注框数量差, 纵轴是对应差值的图片数量. 在总计 484 张测试图片中, 只有 10 张图片完全准确地报告出了人头的位置和数量, 其余图片中均有不同程度的虚检或者漏检. 如果需要统计安全敏感区域中人头的数量来辅助预警, 图 1 所示结果意味着仅有 10 帧的数量结果是可用的, 将数量差异放松到 5 个, 结果可用的帧也只有不到 190 帧. 使用其他物体检测模型, 如单次多框检测器 (single shot multibox detector, SSD) 或者单次检测器 (you only look once, YOLO), 通用物体检测数据集 VOC 和 COCO, 以及车辆检测数据集 KITTI, 上述现象都普遍存在, 即 AP 指标所体现的物体检测性能和数量准确性并没有直接的关系.

更恶劣的情况是当检测方法能够提高物体数量检测准确性时, AP 指标反而有可能下降. 当前主流的物体检测方法, 都采用了深度卷积神经网络技术, 图 2 给出了两种主要技术路线.

图2. 基于卷积神经网络的物体检测方法流程图

这类方法大致分为基于候选框的 2 步检测方法 (图 2 中浅橙色中蓝色框和不基于候选框的 1 步检测方法(图 2 中浅橙色中绿色框). 以人头检测为例, 无论是哪个技术路线, 检测流程都是将检测图片输入检测网络, 得到若干检测框 (检测框包含得分和框的位置及大小), 通过非极大抑制 (non-maximum suppression, NMS) 去除重叠的检测框, 得到最终检测结果. 为了消除漏检和虚检, 我们改进以 NMS 为代表的后处理部分 (本文旨在阐述 AP 指标存在的问题, 引起学术界的讨论. 对于改进方法的描述以及和相关工作的比较超出了本文的范畴, 故不做具体介绍). 令人惊讶的是, 我们观察到了一个很令人困惑的现象, 即改进方法去除了 90% 以上的虚检框, 但是其 AP 指标反而降低了, 即在 AP 指标下, 所做改进是无益的.

我们产生了一个疑问, 到底是我们的改进方法真的无益, 还是 AP 指标没有正确评价我们的改进方法呢? 我们倾向于认为我们的改进是有益的, 因此进一步分析了 AP 指标, 发现 AP 指标除了不能展现检测器检测能力的细节这一问题外, 还存在设计上的缺陷, 即不能反映物体检测结果在数量上的准确性. 本文后续从实际案例入手, 具体分析了 AP 指标潜在的缺陷, 并在理论上证明了该缺陷的存在性, 进而分析 AP 指标的危害性.（欲了解更多细节内容，请扫描上方二维码，免费下载全文阅读.）

对于 AP 指标的这些缺陷虽然在业界大家都习以为常, 甚至出现刷 AP 值的学术研究, 但是随着物体检测算法逐步走向实际应用, 对于数量、类别和位置的准确性愈发重要, AP 指标虽然之前对于技术发展有着积极作用, 但是如本文分析的, 在当前技术情况下, AP 已经成为阻碍技术进步的重要因素. 一方面它误导学术研究的发展方向, 掩盖了真实的挑战问题, 另一方面导致学术研究脱离实际需求. 因此, 我们认为非常有必要对 AP 指标进行批判式的改进, 以弥合学术研究和实际需求的鸿沟, 让技术转化成更好的产品服务大众, 同时让技术创新本身得到更好的发展.

来源：scichina1950 中国科学杂志社

原文链接：http://mp.weixin.qq.com/s?__biz=MzA3MzQ5MzQyNA==&mid=2656801566&idx=2&sn=3d6e3b74b812b7985936ac717fc5ef2a&chksm=84a10dc1b3d684d7c82d92ef48d441d5c687d022c727149c663e97d2750a5e12ca3f347273d3&scene=27#wechat_redirect

电话：（010）86409582

邮箱：kejie@scimall.org.cn