现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

ADSP实验室参加MMM 2019国际会议

时间:2019-01-22

撰稿人:刘超

2019年1月8日至11日,第二十五届多媒体建模国际会议(The 25th International Conference on MultiMedia Modeling)在希腊第二大城市塞萨洛尼基隆重召开。北京大学现代信号与数据处理实验室主任邹月娴教授及16级硕士生刘超,17级硕士生陈广、张粲参加了此次会议。

此次大会,ADSP实验室共发表5篇(2篇oral、3篇poster)文章,内容涵盖了实验室在行为检测与识别、文本目标检测、目标细分类以及声音事件检测领域的最新研究进展。

在行为检测研究中,17级陈广同学作为第一作者发表的文章“STMP: Spatial Temporal Multi-Level Proposal Network for Activity Detection”以oral形式进行汇报并获MMM2019 Best paper list。文章提出了一种端到端的时空多尺度层级网络用来做行为检测。主要动机有两点:一是保留空间信息,二是检测时间多尺度的行为。为了在固定时间分辨率上生成高质量的候选框,论文提出了一种层次化空间特征。与此同时,为了检测多尺度行为,论文提出了一种多层次化时间特征。为了简化网络,借鉴了SSD网络的思想,采用了时间空间分辨率多层级下采样的方法,并针对每一个层级的时空特征,论文用一个特定的候选框检测器用来生成不同时间尺度下的候选框。紧接着叠加这些候选框,并通过nms筛选出最佳的候选框。最终通过3D池化操作并送入一个深度网络中用来分类。

图1. 陈广同学口头报告

在行为识别研究方面,17级张粲同学作为第一作者发表的文章“Hierarchical Temporal Pooling for Efficient Online Action Recognition”以poster的形式进行成果展示。其中,该文章针对当前主流行为识别方法广泛存在的低速、计算复杂度高等问题,提出了分层时间池化算法,设计了端到端的高效神经网络模型,用于提取有效的视频级别特征,提升了行为识别的准确率。该方法在UCF101以及HMDB51这两个基线数据集上的实验结果均达到了先进水平。并且该方法速度快,在单块NVIDIA Titan X GPU上可以达到每秒42个视频(672fps),可以满足视频中的实时行为识别,在实际应用中具有较大价值。

图2. 张粲同学在热情的解答疑问

在文本目标检测方面,16级刘超同学作为第一作者发表的文章“Enhancing Scene Text Detection via Fused Semantic Segmentation Network with Attention”,以poster的形式进行成果展示。文章基于实例语义分割的技术路线来完成多方向文本目标检测任务,设计了一个端到端的文本检测网络。其中,为了提升多尺度及模糊文本目标的检测效果,提出了多层级特征融合模块以及注意力机制模块,旨在增强小尺度以及模糊文本目标的特征表征,进而提升该类文本目标的检测效果。该方法在ICDAR2013、ICDAR2015以及MSRA-TD500三类主流文本目标检测数据集上均取得了最优的检测效果。

图3. 刘超同学在热情的解答疑问

在声音事件检测的研究方面,16级种大丁同学作为第一作者的文章“Multi-Channel Convolutional Neural Networks with Multi-Level Feature Fusion for Environmental Sound Classification ”,由邹老师进行口头报告。该文章提出了基于全卷积神经网络的多时间尺度特征提取及多层级特征融合的方法,设计了端到端的高效神经网络模型,用于提取更丰富的更具有区分性的特征,提升了声音事件检测的准确率。该方法在Urbansound 8K以及ESC-50这两个基线数据集上的实验结果均达到了先进水平。

在细粒度分类方面,16级陆超豪同学作为第一作者发表的文章“Using Coarse Label Constriant for Fine-grained Visual Classification”,以poster的形式进行成果展示并且由刘超同学代为现场解答。文章基于深度神经网络的技术路线来完成细粒度分类任务,提出了一种新的粗标签表示方法和对应的代价函数。其中,为了有效利用类别之间的相关性,提出了粗标签表示方法,旨在关注不同类别在生物分类学上的相关性,进而提升细粒度分类的准确率。该方法在CUB200、Stanford Dogs、NAbirds这三类主流细粒度分类数据集,以及Cifar100这一通用图像分类数据集上,均取得了有效提升。

此外,刘超、张粲以及陈广同学认真聆听学习了著名专家学者的主题报告,并积极地同参会者等进行了深入的讨论和交流,拓宽了学术视野,期待能做出数字信号处理领域更新更强的研究成果。

图4. 邹月娴教授与刘超、陈广、张粲同学在会场合影