CICC智库｜关于多媒体融合通信平台特殊情况的考虑

原创高文中国指挥与控制学会

本文作者：

北京大学信息与工程科学部高文

“中国指挥与控制学会”微信公众号发布

转载请注明来源，违者必究

需求和动机

做多媒体融合通信平台系统的起因是发改委请我们做的一个项目，到2020 年，要把全国所有需要监控、需要看的地方无死角地通过监控视频全能看到。建设中国安全监控网，不是要新建一张网，而是通过把现有的公安网、公共交通网，甚至是商场里的网，所有已经存在的网汇聚起来，让相关部门或者国家高层在远程指控或应急指挥时能够看到现场的情况。

实际上，公安部也有类似的需求，截止到2012年，全国有2300 万个摄像头，这些摄像头按照省、市、县三级联网，由公安部和各地市自己筹建，也有融合成一张网的需求。从富媒体指挥领域来看，每一个摄像头或者每一个源既可能是固定的，也可能是移动的，既可能是视频会议系统，还有可能是沙盘，也有分辨率比较低的，把所有系统都聚合到一起，就会形成巨大的网络。这个网络平台和计算机网络不一样，计算机网络只需要将信息从一端发到另一端，不管路由，发过去就行，每个端都有各自的操作；但视频网络不一样，视频网络如果不考虑摄像头所在位置，最后汇聚到一起时就没法看了，因为不要说几千万个摄像头，即使是几万个摄像头，也没法看。总之，这个视频网络平台的难点主要体现在一下三个方面。

第一方面，同构源组织挑战非常大，比如两三千个摄像头全都汇集到北京，需要非常大的网络才能支撑，不只是上传，还要存储，需要非常大的成本。同时大多数情况下这种存储的数据没用，如何保证需要的数据往上传，不需要的不要上传，保证调用的时候马上就能调出来，不调用的时候不造成成本开销。还有就是同步挑战，几千万个摄像头，如果做电视墙，会是一面非常大的电视墙，就算一个人能看百十个画面，几千万个摄像头画面，大概需要十几万个人同时看，这几乎是不可能做到的一件事。

第二方面，异构源组织问题。最开始有MPEG-4系统，也有H.264、H.265、AVS 等系统，如果某个格式的视频源想让显示端看得见，必须要求两个格式能对上话。反过来，如果源设备只能编解码H.265的视频数据，这会对将来整个系统带来不确定问题。

第三方面，智能辅助问题。这个系统完全靠人看是不可能的，一定要有计算机搜索和识别系统，虽然最终可以让人做最后决策，但在决策之前需要有大致的识别判断。在格式不一样、系统很庞大的情况下，如何做好识别判断，需要很好地研究解决。

基于对上述需求和问题，我们构建了一个CND系统，中文名称“智能多媒体融合通信平台”，简单地说，就是根据提供的摄像机网络，把几万、几十万、甚至几千万个源，精简成需要的几十个源，用非常快的速度把这几十个源构建成一张网络，以便于实时识别和决策指挥。为了做好这个系统，需要明确几点要求。一是视频源基于IP，而且IP 按规则既可以中文还可以英文命名，在视频源数据库进行分层管理。整个视频源按照规则构建网络，可以由特权用户选择规则，也可以提前建好规则。比如可以构建一个规则，这个规则叫“长安大街摄像机网络”，此时只要把周边的所有网络都拉进来，就可以看到长安大街摄像机网，或者是构建某战区摄像机网等等。二是三个关键ANY。第一个叫ANY R（resolution），不管高低分辨率的摄像头都支持；第二个叫ANY F(format)，任何格式的视频源都可以在网上传输和交换，以及显示和存储。第三个叫ANY S(search)，任何搜索和识别要求，都可以在非常短的时间内完成。如果满足这些条件，就是比较理想的CND。

关键技术和标准

（一）AI 规则

是指CND 按照什么样的规则运行，不光是专家系统、知识库系统等。根据需求，可以列出区域规则、道路规则、战区规则、库房规则、卡口规则、爆恐规则等。这些规则既可以用数学表达式来形容，也可以是超级用户一个一个地构建的。

（二）转码规则

转码规则是非常关键的技术，需要支持ANY F和ANY R，保证转码非常快。包括：①分辨率转码，不管什么分辨率，都要有办法把分辨率调整到源和目标能够匹配上；②帧率转码，摄像头有20帧、25帧、35 帧等等，要让系统协调起来，不至于太快太慢或者出现卡顿；③编码格式转码，要有一个好的基准格式，主系统里用基准格式，其他格式进入系统后都以基准格式运行，端和端、局端和终端之间都要通过基准格式转成原始源的格式。这需要巨大的计算开销支持，可以用云转码来转，也可以用专用芯片每路设一个转码机来转。选择一个好的基准格式非常关键，建议把AVS2 作为基准格式在整个系统内去考虑，因为这是当前国内、国际视频编码效率最高的编码标准。

视频之所以能够编码，是因为在视频流里面有非常多的冗余，只要去掉冗余，就可以设计出很高效的编码算法。而如何去掉冗余，到目前已经有50、60 年的时间，行业内的专家、工程师都在想办法去除时间上、空间上和感知上的冗余。从理论上限来说，现在的编码结果与实际上数学的理论上限还有比较大的空间，还有许多可以研究的领域。从1991 年开始视频编码技术标准已经更新了三代，差不多每10 年一代（见图1）。1991 年是第一代，2003 年是第二代，2013 年是第三代，AVS2 就是国际上的第三代视频编码标准，按照发展规律，估计2023 年会有第四代。从性能来说，每一代编码性能会翻一番，就像摩尔效率认为18 个月效率会翻一番一样，每翻一番，速度可以更快。就去掉空间冗余、时间冗余和编码冗余来讲，通常用变换编码去掉空间冗余，因为空间信号大多数情况下都是连续变化的，在连续变化表达里面，前后左右有很多相关性，一方面，这些相关性可以用滤波器去除，但另一方面，如果学会矩阵分析就会更清楚，任何一个图像都是矩阵，就矩阵而言，变换到频率上可以处理。对于任何一次图像里面的冗余更多采用正焦变换的方法处理。至于是120 帧还是60 帧，这是时间上的冗余，可以用滤波器去掉，通称为预测编码。预测编码是滤波器最常用的编码，因为要预测时间上的冗余，每一种编码出现的频率不一样，对常出现的编码给稍微短一点的码字，对不常出现的编码用短一点的码字，平均分配是不合理的，所以要采用更合理的码字，采用熵编码是比较合理的。

由于对时间轴上的技术不断提升，编码效率越来越高。对于高清广播视频的质量而言，比如第一代编码大概能把一部高清视频压缩为原来的1/75，视觉上看不出损失；第二代编码对于高清视频可以压缩到原来的1/150，而第三代可以压缩到原来的1/300，眼睛看不出任何视觉损伤。AVS2 采用的是背景建模技术。例如图2（前页），一片桦树林，一年四季365 天每天都在发生变化，但是不管怎么变化，它的变化是非常缓慢的。下面那个图是一个人在讲话，后面背景不动，通过AVS2 编码可以做到背景相对不动的场合下，压缩效率比第二代编码提高50%，提前10 年完成下一代的性能。这是整个AVS2 的布局，因为AVS2 面向广播，后来面向监控和其他移动视频，所以有不同的档次。AVS2在2011 年国标立项，第一年是视频立项，2013 年AVS2 音频立项，2014 年AVS2 系统立项。通过系统性能分析比对，AVS2 比前一代AVS 性能提高了五倍，在光电视频码流相同条件下基本相当，但在监控视频，分非低延时存储和低延时存储，基本上可以有50% 的性能提升，所以对于监控非常好。对于实时监控通讯，在不打开背景帧情况下，基本上和H.265相当，但是在打开背景帧情况下就会提升一定的比例。这个标准在今年5 月份颁布为广电行业标准，现在正在走国标的流程，而且军标已经立项，乐观地讲，今年年内或者是明年上半年，AVS2 将有可能成为整个视频军标。

这个标准经过广电非常详细的测试，在广电电视计量检测中心，按照严格的广播系统测试，测出来的结果是AVS2 比H.265 好。现在广电AVS2 已经使用，上海电视台从明后年开始用AVS2 做超高清视频的试验或者是正式播出。

（三）搜索规则

视频搜索里面可以将图像与视频视为搜索对象，例如对车辆、指挥员或者士兵实时搜索，也可以对群体行为异常等等提供不同的搜集线索。当前比较推荐的技术标准是CDVS（Compact Descriptor for Visual Search，紧缩视频描述），紧缩视频描述就是大规模视频搜索描述方法，是面向视频搜索的紧缩描述字表达。要搜索的好，描述字要精简和准确，既可以提高搜索速度，也可以保证搜索精度，要求简捷、辨识度高、快速、规范。北大团队从2009 年开始，花了近6 年的时间和国外合作研究了CDVS标准。此标准包含5个核心技术，即兴趣点检测、特征选择、局部描述子压缩、局部描述子聚合和位置点压缩。当中用到的技术涉及数据压缩、计算机视觉及机器学习与数据挖掘等学科。数学工具包括变换、量化、码率分配等。对于局部描述子本身来说就是用类SIFT 特征来做描述，但是直接用SIFT特征会有一系列问题，CDVS 存储空间更少，计算时间更短，效果上会比直接用SIFT 更好。局部和全局是为了加速，有一些细微的特征用的是局部特征，有一些更粗的是全局特征。与传统的特征相比，CDVS 的描述还有很多好处（见图3）第一行是关于特征提取开销，第二行是特征存储开销，第三行是特征大小，第四行是存储的总开销，第五行是特征匹配开销，最后一行是1000 万幅图像上检索时间的开销。左边是SIFT 和CDVS 比较，每一个都有提高，复杂度上降低3 倍，存储开销上比它低了20 倍，特征大小只是它的1%，在一千万幅特征图像上存储空间占用也是SIFT 的1%，500 毫秒完成1000 万幅图像搜索，比SIFT 快10 倍。此标准2014 年通过了审核。其最核心技术贡献者，包括北京大学、斯坦福大学、欧洲一些大学和企业，以及华为研究院，北京大学贡献了50%。这个标准的详细介绍，已经在今年1 月份的MPEG Paper 上发表了。CDVS 已经在系统里使用了，比如路上跑的车，会实时检测出车牌号、车型，需不需要报警等等。

基础性的实践

围绕这两个技术，北大已经做了前期尝试，包括规则系统的建立，智能多媒体融合通信平台工作，视频智能分析、实时转码，实时显示和协议转换等。基于规则建立CND 的尝试，可以根据需要建立若干规则，比如大兴安岭、西藏、南海等视频规则。

早期做过AVS 可易用性的研究，把各种各样的终端，不同格式、不同分辨率的格式都接进来，通过AVS 做转码进行连接和对话。

第二代在这个基础上面向行业和特定用户，在转码和视频转换实时处理方面做了一些工作，除了可以接入电话视频系统之外，还有其他各种视频流接入实现融合。另外协议支持包括H.263、264，G.722等，各种摄像头、手机、车载终端、PC 等等都可以接入进来。目前终端接入的难点是不能实时对接，需要做硬件上的支持，当然技术上有服务器和硬件支持，有各种各样的应用，包括手机、摄像头等快速接入，而且包括大屏显示系统、视频智能分析。其中一个视频分析就是做即拍云平台，用手机马上拍一个东西，马上编进去，马上识别，就像电视摇一摇，拍一幅画面就可以描述其场景。同时，还有图像内容的监控监测，对一些特定人或者是异常行为进行监控和识别。另外可以跨摄像头实现人工再定位，跟踪整个轨迹。可以实现超大分辨率视频处理，把各种不同分辨率的图像显示在同一块大屏幕上，用专门的转码硬件支持。转码系统是整个系统的核心，当前有编转码系统，通过TS 流，用手机终端转码。因为转码是双向的，既可以转到AVS2，也可以从AVS2 转到其他格式，如果想和其他系统对话，也可以负责转回去。这个硬件系统是一个架构，是基于ATCA 插卡式硬件平台的，里面既有X86，也有DSP、ARM、FPGA、GPU、自主芯片等业务板卡，现在可以支持到192 路的实时处理。

结束语

CND 其实是可以解决超大规模摄像机网络的有效管理使用思路，既可以保证实时性，又可以分层组织管理，即用即可得。特点是可以支持视频源基于IP、支持任何分辨率、任何格式、任何搜索要求。核心技术是AI 规则系统、转码系统、AVS2 和视觉搜索系统CDVS。

高文

中国工程院院士，北京大学教授、信息与工程科学部主任，国家自然科学基金委员会副主任，中国计算机学会理事长，IEEE/ACM Fellow。长期从事计算机视觉、多媒体数据压缩以及虚拟现实等的研究

《中国指挥与控制学会通讯》供稿

往期文章推荐

云控制系统及其应用前景探析

CICC智库｜未来网络技术的发展与应用前景

CICC智库｜建立生态电磁环境的机理与方法 ——频谱管理模式和用频方式的变革

戴旭在华为的震撼演讲曝出（万字长文！）

投稿邮箱：liuyali@c2.org.cn

长按下方二维码免费订阅!

如何加入学会

注册学会会员：

近期活动：

4月·烟台	2019烟台院士峰会暨第二届全国高分遥感与空天信息应用论坛
4月19-22日·长沙	2019第一届智能指挥与控制国际会议
4月·北京	中国智慧军营建设创新大会
4月·北京	第二届军民融合物联网高峰论坛
4月·宁波	人工智能及警务大数据应用交流会

个人会员：

关注学会微信：中国指挥与控制学会（c2_china），回复“个人会员”获取入会申请表，按要求填写申请表即可，如有问题，可在公众号内进行留言。通过学会审核后方可在线进行支付宝缴纳会费。

单位会员：

关注学会微信：中国指挥与控制学会（c2_china），回复“单位会员”获取入会申请表，按要求填写申请表即可，如有问题，可在公众号内进行留言。通过学会审核后方可缴纳会费。

长按下方学会二维码，关注学会微信

感谢关注

继续滑动看下一个