北理工在语义深层特征的目标跟踪方面取得新进展学术资讯

近日，北京理工大学光电学院许廷发科研团队在语义深层特征的孪生网络目标跟踪方面取得新进展，相关研究成果以“SiamATL: Online Update of Siamese Tracking Network via Attentional Transfer Learning”为题发表在人工智能领域的国际顶级期刊《IEEE Transactions on Cybernetics（IEEE TCYB）》(IF=11.079)上。IEEE TCYB是人工智能领域具有高影响力的国际学术刊物之一，在2020年该领域120余种JCR期刊中排名前列，影响因子为11.079，中科院一区，主要发表和报道计算智能、人工智能、数据科学和神经网络等领域的最新研究进展和技术。该工作第一作者为北京理工大学博士研究生黄博，通讯作者为北京理工大学许廷发教授。

随着人工智能的发展，具有语义深层特征的视觉目标跟踪在计算机视觉中引起了很多关注。尤其是旨在学习基于决策相似性评估的孪生网络，在跟踪领域中得到了广泛的应用。但是，孪生跟踪网络的在线更新存在局限性，即模型自适应和退化难以达到平衡。

针对这一科学问题，北京理工大学许廷发教授团队率先提出基于注意力迁移学习的孪生跟踪模型。

图1 注意力迁移学习的孪生跟踪模型

为了充分利用先前的信息，该模型将特征表示知识、学习滤波器知识和时空注意力知识转移到当前的模板更新过程中。从历史跟踪任务中学习到的特征表示，以解决当前跟踪任务中缺少高质量训练数据的问题。引入了一个实例转移判别相关滤波器来增强孪生网络的决策能力。预定义基于时空关系的类高斯矩阵来控制不同空间位置的学习权重，并使用L2损失函数来计算更新的目标模板。

图2 传统更新过程和注意力更新过程比较

在Basketball序列中，传统方法的使用较低学习率，更新后的目标外观中仍然存在原始目标和背景的“鬼影”，严重影响当前帧的检测精度。在Lemming序列中，传统方法使用较高的学习率，目标的严重遮挡使传统模型逐渐退化，最终导致更新的模板完全失效。因此，模型自适应和退化与单一学习率之间难以取得平衡，注意力学习方法可以很好地解决这一难题。