图像识别依旧是今年CVPR的大热方向,接受论文比例是各个主题中最高的。《Graph-Structured Referring Expression Reasoning in The Wild》(图形结构的引用表达式推理)是由深睿研究员和香港大学计算机科学系联合发表的,主要讨论了一种基于自然语言处理的图像识别方法。这种方法利用自然语言描述来定位图像上的目标物体。作者提出了场景图引导的模块网络(SGMN),该网络在表达式的语言结构的指导下,通过神经模块网络对图像语义图和语言场景图进行推理。此外,作者还提出了Ref-Reasoning——用于结构化指称表达式推理的大规模真实数据集。该数据集包含真实图像和具有不同推理布局的语义丰富的表达式。参考集包含83,989张图像中的791,956个参考表达。它具有721,164、36,183和34,609个表达参考对,分别用于训练,验证和测试。RefReasoning包含许多语义丰富的表达式,这些表达式描述了不同的对象,属性,直接关系和间接关系。实验结果表明,SGMN在新的Ref-Reasoning数据集上明显优于现有的最新算法,并在常用的基准数据集上超过了最新的结构化方法。这项技术在医疗场景下发挥了巨大的作用,可以用于病例文本数据及影像数据的关联挖掘。
Deep Snake:实时实例分割算法识别物体轮廓
深睿研究院的另一篇论文:《Deep Snake for Real-Time Instance Segmentation》(Deep Snake实时实例分割算法)是与浙江大学计算机学院合作发表的。Deep Snake用深度学习的方式实现了传统的主动轮廓模型思想,使用神经网络将初始轮廓迭代变形为物体轮廓。实例分割是许多计算机视觉项目的基石,许多视频分析,自动驾驶和机器人抓取项目都是基于实例分割。一般的实例分割都是基于像素,本文中的实例分割则是基于轮廓,相较于像素而言参数较少。Deep Snake的本质就是轮廓模型。为了充分利用轮廓拓扑,论文提出了圆形卷积以有效地学习轮廓模型。基于Deep Snake,论文开发了一个两阶段的实例分割:初始轮廓方案和轮廓变形。在数据集的测试中,与直接回归对象边界点的坐标相比,这种方法性能更好。论文将这个方法放到Cityscapes,Kins,Sbd和COCO数据集上进行测试,取得了很好的效果,并达到了32fps的速度。