基于深度学习的目标检测算法在城管中的应用综述

科技工作者之家 2019-10-23

来源:慧天地

前言

    目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初2013年提出的R-CNN、OverFeat,到后面的Fast/Faster R-CNN,SSD,YOLO系列,再到2018年最近的Pelee。短短不到五年时间,基于深度学习的目标检测技术,在网络结构上,从two stage到one stage,从bottom-up >Top-Down,从single scale network到feature pyramid network,从面向PC端到面向手机端,都涌现出许多好的算法技术,这些算法在开放目标检测数据集上的检测效果和性能都很出色。

技术背景

物体检测的任务是找出图像或视频中的感兴趣物体,同时检测出它们的位置和大小,是机器视觉领域的核心问题之一。

物体检测过程中有很多不确定因素,如图像中物体数量不确定,物体有不同的外观、形状、姿态,加之物体成像时会有光照、遮挡等因素的干扰,导致检测算法有一定的难度。进入深度学习时代以来,物体检测发展主要集中在两个方向:two stage算法如R-CNN系列和one stage算法如YOLO、SSD等。两者的主要区别在于two stage算法需要先生成proposal(一个有可能包含待检物体的预选框),然后进行细粒度的物体检测。而one stage算法会直接在网络中提取特征来预测物体分类和位置。

20191023202753_980c6d.jpg

应用背景

近年来,由于人工智能技术、移动互联网以及云计算的规模和应用激增,随着数据采集技术的进步和Deep Learning等领域的复杂的新技术、新方法的使用也导致数据量的产生与日俱增。为了充分发挥长期积累的巨量数据的效能,学术界和工业界再一次将目光转向大数据的研究,并成为智慧城市领域的热点技术。同时,视频监控的飞速发展使得对城市管理的要求不断提高,现有的视频监控的作用领域成为大家主要关注的问题。如何在智慧城市领域加入有效的视频监控应用机制,加入有效安全受控分发机制,为城市运行安全监测提供保障,已成为热点问题。

传统城市管理缺少信息化管理思维,存在信息滞后、城市管理信息获取成本高、效率低的问题,造成城市管理工作被动,发生的问题得不到及时有效解决。随着城市的快速发展,管理专业分析也越来越细,城市管理各部门之间职责不清、职能交叉,管理工作混乱无序,部门之间协调合作的成本越来越高,推诿扯皮现象时有发生,加之管理方式上过多依赖突击式和运动式管理,缺乏行之有效的长效管理和社会共治机制,管理的技术手段落后,方式单一、粗放,缺乏合理的监督评估机制,使城市管理始终处于一种综合协调缺位、管理工作不到位、社会参与缺失的尴尬境地。

应用难点

对于基于城管事件的检测技术,其根本目的是协助城市管理人员从成百上千的视频场景中快速检测出城管事件,提醒执法人员查看,城管事件图片有以下特点:

视频拍摄的城管图片噪声大,断层拍摄得到的图片多且杂。另一方面事件图片不像运动的目标一样有一定的轨迹,单张的事件图片场景很难确定,事件主体行为比较难识别。

事件特征,大小、形状以及位置分布不均匀,甚至部分事件肉眼也很难分辨。

事件图片周围存在多样的干扰特征,且干扰特征与主体特征相似,这无疑增加了很多结构特征,给检测增加了难度。

负类样本与主体样本特征相似。

这些特征使得单张事件图片的检测技术与一般的目标检测(如行人检测、车辆检测)有很大的不同,事件图片都是静止的且城管事件图片的特征复杂,不存在运动轨迹,因此不能用动态目标的检测方法进行检测。

对此,我们利用迁移学习技术结合图像预处理技术,实现了城管事件小样本,高精度的目标检测模型,无需重新初始化权重,在表现良好的权重模型上,通过冻结高维特征,固定浅层特征层操作,减少了新模型训练的时间,同时保证了模型具备较高的精度。

工作流程

城管事件智能检测一般由视频探头、事件图片库、图像处理算法、ROI标记、CNN分类网络模型、RPN网络模型等组成。视频探头主要提供视频流数据,方便图像的提取,事件图片库主要用来生成可用的算法训练数据集,给网络模型提供更多的参数特征,图像处理算法主要用于对场景不完善的图片进行去雾、去雨滴等操作,达到数据预处理的作用,把清晰、完整、噪声低的图像制作成训练集,ROI标记主要为算法模型训练提供region proposal,把训练集中的事件主体框出并人工定义label,进行网络训练,CNN分类网络模型主要用于图像特征的提取以及对最后的特征图进行分类识别,RPN网络模型主要为事件主体提供边框信息,确定事件主体在图片中的定位,把最后的边框回归到图片的事件中。工作流程如下:


20191023202754_a067a4.jpg

城管事件图片检测的目标示意图如下图所示,平台调用监控进行事件检测,由视频摄像头推送媒体流数据;平台接收视频流,将抽取(固定像素的图片),传入目标检测模型进行检测,模型将检测结果直接显示在图片中并输出,平台接收到事件信息,将直接显示于界面中,并通知处置人员进行处理。

20191023202754_a2ab75.jpg

应用成果

在tensorflow1.11环境下搭建的Faster-RCNN深度学习模型,本节进行了基于城管事件的Faster-RCNN的检测的实验以及结果评估。用训练集训练Faster-RCNN,最终得到测试集中城管图片包含的事件类别、位置信息、以及分类后的置信度,对检测结果进行可视化。最终实验的部分事件检测结果如图所示。

20191023202755_b8101f.jpg

为了验证不同特征之间是否存在相互影响,本文将综合模型进行了测试,综合模型测试数据从训练数据中随机抽取10%样本,测试精度如表所示:

20191023202755_bbbc8c.jpg

实验表明在大样本数据下的城管事件目标检测算法,通过对训练数据集的预处理以及预训练模型的微调,该算法在城管事件检测中准确度较高,并且该检测算法对现实场景中的部分噪声具有一定的鲁棒性,检测精度高,检测速度快。

来源:geomaticser 慧天地

原文链接:http://mp.weixin.qq.com/s?__biz=MzIwNDE1NjM2NA==&mid=2652057981&idx=7&sn=98f46839a6c9336cb7a0a424872568e4&chksm=8d23eddeba5464c8b5451346005afbd3ebc78f3def8371d99fa195f7cf2a35cf5207cd889b72&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

算法 深度学习

推荐资讯