CVPR oral解读：医疗AI最新进展，可媲美人类医师推理能力的图像检测算法

原创新智元新智元

新智元报道

来源：cvpr

编辑：白峰、舒婷

【新智元导读】疫情让大众更加关注医疗健康。而在刚刚过去的CVPR2020中，也有很多医学方面的研究工作。深睿医疗就有四篇论文入选，其中三篇为oral，其论文涵盖了医疗图像识别，姿态估计等多个主题，在医疗AI方面取得了优异的成绩。

CVPR竞争一年比一年更激烈。

从公布的论文接收结果来看，在5865篇有效投稿中有1467篇论文被接收，接收率仅为25%，oral按照往年经验，一般只有5-7%，竞争越发激烈。

由于疫情，医疗行业的计算机视觉今年也备受关注，无论是oral，poster，还是tutorial，workshop，都有不少医疗健康领域的科研成果。

其中，深睿医疗就有四篇科技论文入选，三篇选为oral，确实获得了一个相当不错的成绩。

基于二部图的图像检测算法，拥有了媲美人类医师的推理能力

乳腺癌已成为当前社会的重大公共卫生问题之一，因此乳房X光照片质量检测具有重要的临床意义。来自轴斜位视图（即中外侧斜肌和颅尾骨）的信息和乳腺疾病是高度相关的，有助于医生做出全面的决策。

放射科医师能够在横断面图像识别出肿块，但是大多数现有的图像识别方法缺乏领域知识的指导，推理能力很差，因此会限制其性能。

下面这篇论文介绍了一种先进的二部图卷积网络，使算法具备了类似放射线医师的轴斜位视图推理能力。

我们来看一下二部图网络是如何实现推理能力增强的。

二部图将跨视图主干特征作为输入，并输出增强的特征以进行进一步的预测。首先，通过用伪标记映射空间视觉特征来构造二部图节点。每个映射单元是每个图形节点的代表区域。然后，二分图边缘学习对几何约束和语义相似性进行建模。接下来，通过在二部图中传播信息来进行对应推理以增强特征。最后，增强的特征将与原始信息聚合在一起，进行进一步的预测。

在DDSM数据集上的实验结果表明，该算法达到了最先进的性能。此外，视觉分析表明该模型具有明确的物理意义，有助于放射科医生进行临床解释。

同现有的方法相比，同等假阳性下检出敏感性高出4个百分点，同等敏感性下假阳性减少了近60%，充分验证了算法的有效性。这篇文章也被选为2020年CVPR的ORAL，该算法也已经应用到深睿医疗的乳腺钼靶AI医学辅助诊断系统，用于乳腺疾病的早期筛查。

病例文本数据及影像数据的关联挖掘全搞定：基于自然语言处理的图像识别

图像识别依旧是今年CVPR的大热方向，接受论文比例是各个主题中最高的。《Graph-Structured Referring Expression Reasoning in The Wild》（图形结构的引用表达式推理）是由深睿研究员和香港大学计算机科学系联合发表的，主要讨论了一种基于自然语言处理的图像识别方法。

这种方法利用自然语言描述来定位图像上的目标物体。作者提出了场景图引导的模块网络(SGMN)，该网络在表达式的语言结构的指导下，通过神经模块网络对图像语义图和语言场景图进行推理。

此外，作者还提出了Ref-Reasoning——用于结构化指称表达式推理的大规模真实数据集。该数据集包含真实图像和具有不同推理布局的语义丰富的表达式。

参考集包含83,989张图像中的791,956个参考表达。它具有721,164、36,183和34,609个表达参考对，分别用于训练，验证和测试。RefReasoning包含许多语义丰富的表达式，这些表达式描述了不同的对象，属性，直接关系和间接关系。

实验结果表明，SGMN在新的Ref-Reasoning数据集上明显优于现有的最新算法，并在常用的基准数据集上超过了最新的结构化方法。

这项技术在医疗场景下发挥了巨大的作用，可以用于病例文本数据及影像数据的关联挖掘。

Deep Snake：实时实例分割算法识别物体轮廓

深睿研究院的另一篇论文：《Deep Snake for Real-Time Instance Segmentation》（Deep Snake实时实例分割算法）是与浙江大学计算机学院合作发表的。Deep Snake用深度学习的方式实现了传统的主动轮廓模型思想，使用神经网络将初始轮廓迭代变形为物体轮廓。

实例分割是许多计算机视觉项目的基石，许多视频分析，自动驾驶和机器人抓取项目都是基于实例分割。一般的实例分割都是基于像素，本文中的实例分割则是基于轮廓，相较于像素而言参数较少。Deep Snake的本质就是轮廓模型。为了充分利用轮廓拓扑，论文提出了圆形卷积以有效地学习轮廓模型。

基于Deep Snake，论文开发了一个两阶段的实例分割：初始轮廓方案和轮廓变形。在数据集的测试中，与直接回归对象边界点的坐标相比，这种方法性能更好。论文将这个方法放到Cityscapes，Kins，Sbd和COCO数据集上进行测试，取得了很好的效果，并达到了32fps的速度。

MetaFuse：不依赖特定相机对的人体姿态估计

人体姿态估计已经取得了非常大的进展，但是之前的研究在实际中会遇到一个问题，就是人体被遮挡，之前的很多方案依赖于特定的相机对，缺乏泛化能力。深睿研究院与北京大学前沿交叉学科研究院大数据中心合作提出了融合多个视角信息的姿态估计方法。

MetaFuse将原有的融合模型分解为：所有相机通用的模型、针对特定相机的轻量级变换矩阵。然后使用元学习增强了模型的泛化能力，只需要少量样本即可完成模型迁移。

通过不同方法估计的人体姿态。每组有4个子图，分别对应于真实情况和三种方法。粉色和青色的关节分别属于右侧和左侧的身体部位。红色箭头突出显示了这三种方法估计的关节位置。从实验结果来看，MetaFuse的各项性能指标明显优于其他方法。

今年的CVPR还有很多值得关注的内容，感兴趣的同学可以去官网查看相关的细节。

参考链接：

https://arxiv.org/pdf/2003.13239.pdf

http://cvpr2020.thecvf.com/

继续滑动看下一个