现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

ADSP实验室在人工智能顶级期刊TCSVT上发表学术论文

时间:2021-06-08

我实验室视频小组题为“All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection”的学术论文被人工智能期刊TCSVT接收。

场景文本检测(Scene Text Detection, STD)是机器视觉理解中的一项重要研究内容,目标是检测视觉场景中语意文本的位置。相比传统的通用物件检测任务,STD任务需要在复杂的视觉背景中检测出的文本位置。

现有的主流方法遵循实例分割路线来获取文本区域。然而,任意形状的文本由于尺度的不同,很难通过单一的分割网络来描述。在本文中,我们提出了一种基于两阶段分割的检测器,称为NASK (Need a Second looK),用于任意形状的文本检测。

图:NASK模型图

与传统的单阶段分割网络相比,我们的NASK以一种从粗到细的方式进行检测,第一阶段分割定位矩形文本,第二阶段输出紧凑表示。具体来说,NASK由一个文本实例分割(TIS)网络(第一阶段)、一个几何感知的文本RoI对齐(GeoAlign)模块和一个基准点表达(FOX)模块(第二阶段)组成。首先,TIS通过空间和通道注意力(GSCA)模块提取增强特征,并进行实例分割,获得矩形检测结果; 然后,GeoAlign将这些矩形转换为固定大小,并编码RoI-wise特征表示。最后,FOX将文本实例分解为几个关键的几何属性来细化检测结果。

本文在Total-Text、SCUTCTW1500、ICDAR 2015和ICDAR 2017 MLT四个公共基准上进行了充分实验,验证了我们的NASK优于最新的最先进的方法(84.4% H-mean in Total-Text)。

TCSVT是CCF推荐的B类会议,中科院JCR分区一区期刊,影响因子为4.133。视频小组内曹蒙为该论文的第一作者,邹月娴教授为通讯作者。