如何让机器看得更真更远？视觉计算专家为你讲解关键技术和解决方案

中国计算机学会中国计算机学会

视觉计算是当前人工智能研究和应用极其活跃的领域，在智能制造、智能交通、智能医疗、智能教育、智能安防等领域应用前景广阔。本周CCF数字图书馆分享3位业界重量级专家在该领域深度研究的专业报告。本文含有3个报告视频，登录CCF数图看更多精彩报告。

视觉是人类获取信息的最主要方式。在视觉、听觉、嗅觉、触觉和味觉中，视觉接受信息的比例约占80%。计算机视觉是一门研究让机器能“看”的学科，是人工智能的重要组成部分，是当前人工智能研究和应用极其活跃的领域。对于计算机视觉系统而言，输入设备是视觉传感器(visual sensor)，包括RGB传感器、深度(depth)传感器和激光雷达(lidar)传感器等, 输出的是“对世界的理解”。

决定计算机视觉技术能否被大规模应用有三个因素，第一是准确率，第二是成本，第三是识别时间。只有很好地解决了这三个因素，视觉技术才会得到大规模的应用。

如今，计算机视觉领域呈现出很多新的发展趋势，其中最为显著的是应用的爆炸性增长。除了手机、个人电脑和工业检测之外，在智能安防、机器人、自动驾驶、智慧医疗、无人机、增强现实(AR)等领域都出现了各种形态的计算机视觉应用。随着计算能力的显著提升、数据规模的大幅扩充、机器学习算法的日益精良，近年来视觉计算技术得到迅猛发展，在诸如智能制造、智能交通、智能医疗、智能教育、智能安防等关键应用中发挥着越来越重要的作用。

本期CCF数字图书馆特别分享3位视觉计算领域重量级专家的专业报告，对计算视觉的基础算法、关键技术、核心应用及当前热点问题进行深入浅出的讲解，并对如何开展本领域前沿技术研究等进行指导，若想了解更多关于视觉计算的专业知识，请登录CCF数图全面了解。https://dl.ccf.org.cn/（长按复制此链接至浏览器打开）

1《后深度学习时代的视觉计算模型与方法》

山世光 中科院计算所研究员、博导

近年来，得益于有效利用大规模强监督样本的深度神经网络，计算机视觉和模式识别在诸多任务上取得了跨越式的进步，然而大量现实的问题都难以获得大规模强监督样本，因此弱监督、小样本等复杂数据条件下的机器学习研究具有重要理论和应用价值。本讲座将在回顾深度学习视觉计算总体进展及落地困难的基础上，讨论后深度学习时代计算机视觉领域需要解决的一些关键挑战，特别是在复杂数据条件下的视觉学习问题，并介绍在这些视觉问题上的若干近期研究进展。

2《脑启发的视觉计算模型、方法与应用》

张兆翔 中科院自动化所研究员，博士生导师

脑科学研究从分子到行为多个方面都可以进行探索，是视觉计算理论取得突破的重要创新源泉。现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上仍然存在固有缺陷，需要以脑为参照物加以对照，寻求借鉴。向脑学习，开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。

3《基于结构化知识建模的深度视觉推理》

陈添水 中山大学工学博士

近年来，深度网络模型在多个视觉任务中取得显著的进展，在大规模物体分类、人脸识别等任务中的精确度甚至超过了人。然而，基于深度网络的方法依赖于大量标注数据拟合大量参数进行预测，存在以下几个问题：1）这些方法很难泛化到具有少量样本甚至没有样本的视觉概念；2）这些方法通常把深度网络当成黑盒子使用，缺乏解释性；3）这些方法大多数只能进行简单的预测判断，无法进行有效推理。为了解决上述问题，报告介绍了一系列基于知识建模的深度推理模型，以及其在大规模视觉理解中的应用。