第十二期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

中国图象图形学学会 2022-11-24

图片1.png

CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第十二期于2022年10月11日成功举行。本沙龙由中国图象图形学学会(CSIG)主办,CSIG文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请邀请北京科技大学 刘畅博士,分享其CVPR2022最新成果—OpenCCD:基于上下文解耦的开集文字识别方法。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播。

360截图20221020092421048.jpg

图片3.png

本次活动由北京科技大学计算机与通信工程学院的杨春老师主持,北京科技大学计算机与通信工程学院的博士研究生刘畅做了题为“OpenCCD-一种基于上下文解耦的开集文字识别方法”的学术报告。报告首先介绍了开放集文字识别任务的定义,并指出了传统封闭集文字识别方法和零样本文字识别方法在开放应用环境下面临的新挑战。接下来,报告人首先介绍了OpenCCD的前序工作OSOCR Framework[1]。该工作定义了开放集文字任务,给出了相应数据集和评测指标,以及一种基于标签-原型学习的开放集文字识别框架。 接下来,报告介绍了以OSTR Framework为基础发展得到的OpenCCD方法[2]。该方法相互要解决上下文信息对开放环境下识别性能的影响。该工作通过使用Detached Temporal Attention模块分离时序信息与Decoupled Context Anchor模块分离语义信息,最终的到了相对“干净”的基于字符视觉信息的预测。和前述工作[1]相比,openCCD展示了更好的对新文字识别性能,并在封闭集标准测试上达到了与主流封闭集方法的相近性能。 报告对未来发展方向进行了简要展望。

        最后,报告人回答了听众提出的一系列问题,并号召大家共同探究该领域尚未解决的问题。报告中的主要工作涉及的源代码和文档已经开源到github,数据和模型已上传至Kaggle。

github:https://github.com/lancercat/VSDF

kaggle:https://www.kaggle.com/vsdf2898kaggle/osocrtraining

报告的论文:

[1] Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, Cheng-Lin Liu, and Xu-Cheng Yin. 2021. Towards Open-Set Text Recognition via Label-to-Prototype Learning. CoRR abs/2203.05179v2 (2021). https://arxiv.org/abs/2203.05179v3 (Accepted in Pattern Recognition)

[2] Chang Liu, Chun Yang, and Xu-Cheng Yin. 2022. Open-Set Text Recognition via Character-Context Decoupling. CVPR 2022. accepted

本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!

错过直播的同学可以前往B站观看回放视频,链接:

https://www.bilibili.com/video/BV1oe41157HY

或微信扫描二维码观看

图片4.png