手上有很多小动作？TA一眼看穿！学术资讯

来源：中科院之声

图1 小学数学题（图片来自网络）

小时候，我们都做过类似于图1中的数学题，问题是图中的动物有几只脚或者几只手。现在，计算机也能够回答这个问题啦，其中的原理就是利用人手检测技术。

图2 人手检测结果

举起小手，灯被点亮；摇摇手指，窗帘打开

人手检测是通过手部特征的提取，在图片中将人类的手部标记出来，如图2所示。人手检测是进一步进行图像或视频分析的重要基础工作，具有广泛的应用。

想象一下，当你正在高速公路上开着车，突然来了电话，你的手离开方向盘，拿着手机接了这个电话。晚上回到家，收到一条信息：因为开车接电话被罚款200扣2分。这就是因为监控摄像头被赋予了人手检测的能力，通过检测手部，并持续分析，发现了打电话的动作。

再想象一下，当你下班回到家，只要举起你的右手，整个房间的灯就全部点亮，再摇摇手指，窗帘自动打开。这么炫酷的未来智能家居技术，其实都是建立在人手检测的基础上，对手势进行分析，进而触发对应的指令。

当然，这些其实都只是人手检测应用的冰山一角，这项技术未来将深入到我们生活的方方面面，包括智能交通、智能家居、异常行为监测等等。

更高效的人手检测

近期，中科院软件研究所武延军团队在像素级高效人手检测领域取得新进展，为人手运动视频的实时检测估计处理提供了一种新方法。

传统人手检测方法利用人工特征提取与分类器结合，特征具有局限性，提取时间开销大。而基于深度学习的方法对尺度较小的首部区域漏检概率大，同时网络结构复杂，训练和测试时间长，不能达到实时检测的要求。

以上问题导致现有算法无法同时满足具体场景中准确率和实时性的要求，严重制约了人手检测在实时视频处理中的应用。研究人员提出了一种尺度不变的全卷积神经网络，补充加权特征融合模块学习不同尺度的特异性，对网络的中间层也加入了监督，以迭代的方式融合多个尺度的特征进行最后的预测，具体网络结构如图3所示。

图3 网络结构

——他们引入了像素级分割的人手检测

之前的人手检测方法，都是直接通过矩形框对图片中的人手区域进行预测，在这项工作中，他们引入了像素级人手分割方法，预测人手的不规则区域，通过对每个区域的打分，从不规则区域中判断哪些是人手，所以在精度上，优于直接预测矩形区域的方法。

图4 像素级人手检测

——他们考虑了人手的姿态和角度信息

之前的人手检测方法，只能输出矩形的人手区域，无法给出更多信息。在这项工作中，研究人员考虑了的人手的不同姿态（握拳、展开等）和角度信息（正反、水平夹角等），能够将人手的可能姿态与角度进行输出，为进一步的行为分析提供更多的参考。

图5 人手的姿态和角度信息

与当前最好方法相比，在保证精度的同时检测速度更快，将单张图像处理速度最高提升4.23倍，首次达到62.5 fps。相关成果以Scale Invariant Fully Convolutional Network：Detecting Hands Efficiently 为题发表于国际人工智能会议AAAI Conference on Artificial Intelligence （AAAI 2019），论文通讯作者为中科院软件所张立波。

来源：zkyzswx 中科院之声

原文链接：http://mp.weixin.qq.com/s?__biz=MjM5NzIyNDI1Mw==&mid=2651759297&idx=1&sn=ab068f75c85f0625010651c3800c11e2&chksm=bd2748938a50c1855d51d0732cbd304e839ee75e5182f2122319f9d8dfdf8f0c5b6def0ea69f&scene=27#wechat_redirect

电话：（010）86409582

邮箱：kejie@scimall.org.cn