首页 学者频道 学术频道 创新频道 全国学会 科协智库

CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配

肖攀峰 05月28日

来源:PaperWeekly

‍‍©PaperWeekly 原创 · 作者|张承灏

单位|中科院自动化所硕士生

研究方向|双目深度估计

本文介绍的是中科大团队在 CVPR 2020 上提出的一种高效立体匹配网络——自适应聚合网络 AANet,它由两个模块组成:同尺度聚合模块(ISA)和跨尺度聚合模块(CSA)。AANet 可用来代替基于匹配代价体(cost volume)的 3D 卷积,在加快推理速度的同时保持较高的准确率。


wt_a42302020529142833_14f1b0.jpg


论文标题:AANet: Adaptive Aggregation Network for Efficient Stereo Matching

论文地址:https://arxiv.org/abs/2004.09548v1

wt_a22322000529142833_184926.jpg

在基于深度学习的立体匹配方法中,以 GC-Net [1] 为代表的基于 3D 卷积的方法逐渐成为主流,它是由左右图的特征经过 cancat 得到一个 4D 的 cost volume,之后利用 3D 卷积进行代价聚合得到最终的视差图。

近两年来以此框架为基础的模型在 KITTI 等数据集上成为新的 state-of-the-art,例如 PSMNet [2],GA-Net [3] 等。
这些方法估计的视差虽然准确率高,但是存在两个参数量和内存占用量高的地方,
cost volume 是一个 H×W×D×C 的 4D 张量,具有较高的参数量;

利用 3D 卷积进行代价聚合,计算量较大;

AANet 主要用来解决上述两个方面,从而提升深度立体匹配网络的效率。


wt_a72392020052142833_198434.jpg


Methods

wt_a62322020059142833_1aafd9.jpg


上图是 AANet 的整体框架图。给定一对双目图像,首先通过共享特征金字塔网络(类似 ResNet+FPN)提取 1/3,1/6 和 1/12 分辨率的特征,之后对三种分辨率的左右图特征分别经过correlation操作,得到多尺度的 3D 匹配代价。
接着经过 6 个堆叠的 AAModules 进行代价聚合,最后利用 soft argmin 操作回归视差图。AANet 可以得到三个尺度的输出,在上采样为原图尺度时还采样了 StereoDRNet [4] 中的精修模块。
这里,AAModules 由 3 个同尺度聚合模块(ISA)和一个跨尺度聚合模块(CSA)组成,下面重点介绍这两个模块。
2.1 Adaptive Intra-Scale Aggregation (ISA)
同尺度聚合指的是只对相同分辨率的 cost volume 进代价聚合,来源于传统立体匹配方法中的局部代价聚合:wt_a62322020059142833_1e2b8c.jpg
其中 是在像素点 q 处,视差为 d 的经过聚合的匹配代价,像素点 q 属于p点的邻接像素点; 是在像素点 q 处,视差为 d 的原始匹配代价, 是聚合权重。
传统的局部代价聚合不能处理视差不连续的情况,容易造成物体边缘和细微结构的粗大边缘问题(edge-fattening)。尽管基于深度学习的方法能够自动地学习权重 w,但是它们也还是采用固定窗口的规则卷积,并不能自适应地进行特征采样。
为了解决上述问题,作者提出采用基于稀疏点的特征表示能够更高效地进行代价聚合,并借鉴可变形卷积来改进代价聚合,提出了自适应的同尺度聚合模块(ISA):wt_a42302020529142834_2188d6.jpg
其中 是聚合后的代价, 是采样点的数量(K=3), 是第 k 个点的聚合权重, 是像素点的固定偏置,而 是学习的附加正则化偏置。 类似可变形卷积的调制机制,用来调整聚合权重
可以由单独的卷积层实现,整个 ISA 模块由 3 个卷积和一个残差模块组成,类似 ResNet 中的 bottlemneck,三层分别是 1×1,3×3 和 1×1,其中 3×3 是可变形卷积。

wt_a12302200529142834_22fb61.jpg


上图是两个区域(绿色)的采样点(红色)分布情况,(a)在边缘处采样集中在相似的视差区域,(b)在大块无纹理区域,采样点成散落状分布。这表明了自适应聚合的优势。
2.2 Adaptive Cross-Scale Aggregation(CSA)
对于无纹理或者弱纹理区域,利用下采样得到的粗糙尺度更能提取具有判别性的特征,但是对于一些细节特征,又需要较高分辨率的视差预测,因此多尺度聚合是一种常用的聚合方法。
作者借鉴传统的跨尺度聚合方法,将其近似表达为:wt_a42302020529142834_26cacd.jpg
其中 S 是经过跨尺度聚合后的 cost volume,而 是在第 k 个尺度经过 ISA 聚合后的 cost volume, 是使得 cost volume 能够自适应地在多个尺度聚合的通用函数表示形式。
作者将 以 HRNet [5] 的形式实现(HRNet 是用于姿态估计的模型),其具体构成为:wt_a62322020059142834_2811a5.jpg
其中 表示恒等映射函数, 用来和 下采样分辨率保持一致,而 表示双线性上采样到相同分辨率,之后接 1×1 卷积对齐特征通道。
这一整套构成了 CAS 模块,具体的可视化连接方式可以参考 HRNet,简单来说是每个尺度特征都收到来自其他各层的特征,并统一到该层的分辨率融合。
2.3 Loss Function


和以往直接采用预测视差和视差 GT 作 smooth L1 loss 不同,作者认为像 KITTI  这样的数据集只提供了稀疏的标签,可以使用已经训练好的模型先进行伪标签标注,从而得到密集的标签信息,用来弥补真实标签没有标注的地方。

作者采用 GA-Net 进行伪标签标注,第 i 层的损失函数为:wt_a82312020052942834_298662.jpg
其中 为第 i 层的视差输出, 为 ground truth 视差, 为 GA-Net 标注的伪标签, 是一个二值掩码,用来标记有效像素点。即 GT 标注的视差用 GT,GT 没有标注的视差用伪标签。
最终的 loss 为, 为损失权重:

wt_a72392020052142834_2b6285.jpg


wt_a72392020052142834_2cc56c.jpg


Experiments


作者采用了 KITTI 2012、KITTI 2015 和 SceneFlow 数据集进行实验。
3.1 Ablation Study


首先作者做了消融分析,验证 ISA 和 CSA 模块的有效性。

wt_a82312020052942834_2dfe18.jpg

由上表可以看出,结合了 ISA 和 CSA 的 AANet 在两个数据集上表现最佳。

wt_a32302020529142835_307bc3.jpg


从上图的定性可视化看,在弱纹理区域能够得到更锐化和细致的结果。
3.2 Comparison with 3D Convolutions

wt_a42302020529142835_3448bc.jpg


作者和有代表性的 4 个模型进行了比较,其他 4 个模型都采用了 3D 卷积。将这 4 个模型的 backbone 换成一样,再将 3D 卷积换成 AANet 的 ISA 和 CSA 模块,构成 XX-AA 模型。
从上表结果可以看出,除了 GA-Net,其他具备 AANet 模块的模型准确率都高一些。并且从参数量,计算量和内存占用量以及运行时间上都有降低,可见 AANet 的确让立体匹配更加高效。
3.3 Benchmark Results

wt_a32302020529142835_379cbb.jpg


上表是在 KITTI 2012 和 KITTI 2015 上的结果,相比于精度高的模型,AANet 速度最快;相比于速度快的模型,AANet 精度最高,是一个不错的 trade-off。

wt_a32302020529142835_3ab056.jpg


Conclusion


3D 卷积的确是基于 cost volume 立体匹配方法的痛点,想要让立体匹配更高效,少用或者不用 3D 卷积是一个很好的解决思路。从立体匹配提速角度看,之后的研究可以从如何替代 3D 卷积,或者如何减少 3D 卷积的入手。
从其他相似领域角度看,如何将这种思路应用到高分辨率立体匹配,多视角立体视觉(MVS),光流估计,基于双目的 3D 检测等领域。
参考文献
[1] Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, and Adam Bry. End-to-end learning of geometry and context for deep stereo regression. In CVPR 2017.[2] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR 2018.[3] Feihu Zhang, Victor Prisacariu, Ruigang Yang, and Philip HS Torr. Ga-net: Guided aggregation net for end-to-end stereo matching. In CVPR 2019.[4] Rohan Chabra, Julian Straub, Christopher Sweeney, Richard Newcombe, and Henry Fuchs. Stereodrnet: Dilated residual stereonet. In CVPR 2019.[5] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In CVPR 2019.

卷积 cvpr 网络模型 自适应

推荐资讯