ADSP实验室参加ACMMM 2019国际会议
2019年10月21日至25日,第27届ACM国际多媒体会议(ACM MM)在法国尼斯(Nice)隆重举行。ACM国际多媒体会议(ACM International Conference on Multimedia)在1993年首次召开,之后每年召开一次,已经成为多媒体领域顶级会议,也是中国计算机学会推荐的A类国际学术会议。会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。本次大会有效投稿数936篇,共248篇被接收(中稿率约26.5%)。
北京大学现代信号与数据处理实验室17级硕士生张粲同学参加了此次会议。在视频行为识别方向,张粲同学以第一作者身份发表文章“PAN: Persistent Appearance Network with an Efficient Motion Cue for Fast Action Recognition”,以oral+poster的形式展示。
本篇文章针对视频行为识别中时序运动信息建模问题开展研究。当前主流的视频行为识别方法均严重依赖光流作为运动表征,然而,光流的计算复杂度很高,预先计算需要消耗大量的计算资源和存储空间,这严重制约了行为识别算法在实时场景下的应用。本文创新地从时序运动信息建模摆脱光流依赖的角度出发,受人类视觉系统中“视觉暂留”现象的启发,首创了一种新颖的运动表征“外观暂留”(Persistence of Appearance,PA),它可以直接从相邻RGB视频帧中提取运动信息,具有有效、高速、灵活性强等特点。PA的原创性思想是源于光流的定义,但更加关注于运动边界处的小位移。和其他运动表征相比,PA能使网络在达到相近行为识别准确率的情况下,同时推理速度达到1855fps,比基于传统光流类的方法(~15fps)快约120倍。此外,本文创新地设计了“多时间尺度推理池化”(Various-timescale Inference Pooling,VIP),用于赋予网络多时间尺度长程时序建模的能力。进一步地,本文将设计的PA和VIP整合进一个统一的网络,称为“持久外观网络”(Persistent Appearance Network,PAN)。和其他同样仅以RGB作为输入模态的方法相比,本文提出的PAN在三个行为识别基准数据集上均取得了最优的结果,整个网络的运行速度高达595fps。
大会上,本文的海报展板吸引了众多参会者前来交流,研究工作和原创性设计思想得到了同行的认可与好评。此外,张粲同学在会场上认真聆听了专家学者的主题报告,并积极同参会者深入交流讨论,在视频理解领域拓宽了学术视野,期待未来能研究出更加前沿的学术成果。
附注:尼斯(Nice),是地中海沿岸法国南部港口城市,为主要旅游中心和蔚蓝海岸地区的首选度假地,是法国最美丽的海滨之城。由于历史上曾被意大利占领过,因此是一座法国与意大利文化共存的城市。近百年来,法语和法国菜等法国的精致文化融入了尼斯城当中,造就了独一无二的风景。