ADSP实验室在多媒体领域顶级期刊TMM上发表学术论文
撰稿人:张粲
近日,邹月娴教授团队在多媒体方向顶级期刊IEEE Transactions on Multimedia (TMM)上发表了题为“AFNet: Temporal Locality-aware Network with Dual Structure for Accurate and Fast Action Detection”的学术论文。
时序行为定位任务(Temporal Action Localization, TAL)是从未裁剪的视频中定位出感兴趣的时序行为片段,并得到目标时序行为片段发生的开始时间、结束时间和其类别。虽然近年来深度学习兴起和计算能力的大幅提升使得该任务有了较快发展,但是基于视频的时序行为定位任务依然面临着许多挑战,例如变时序长度、动态时序结构性、背景噪声片段等问题。
该论文聚焦于降低背景片段噪声与时序结构性问题带来的影响。基于对时序行为多粒度分析,提出了一种基于有效长短程空时建模的两阶段定位框架(AFNet),该方法在时序候选框建议阶段进行有效的短程空时建模,在时序分类阶段引入子行为相关性编码进行长程空时建模。
上图:所提出的基于有效长短程空时建模的两阶段定位框架(AFNet)结构图
通过以上设计,短程空时表征策略有效地抑制时序背景片段噪声,提高了时序候选框定位的准确率和召回率;子行为时序相关性编码方法增强了对时序行为动态特征编码能力,相比于基线算法大幅的提高了时序行为分类的准确率。
本文在三个时序行为定位基准数据集上进行了充分实验,实验结果表明,AFNet能在不牺牲速度的条件下大幅提高定位的准确率,在THUMOS14上tIoU为0.5条件下取得了mAP为49.5%的最先进结果。
上表:在THUMOS’14数据集上与近年先进方法的比较结果
IEEE Transactions on Multimedia是CCF推荐的B类期刊,中科院JCR分区一区期刊,影响因子为6.051。视频小组内陈广和张粲为该论文共同第一作者,邹月娴教授为通讯作者。