ADSP实验室在信号处理方向权威期刊SPL上发表学术论文
撰稿人:王赫麟
近日,邹月娴教授在信号处理方向权威期刊IEEE Signal Processing Letters (SPL) 上发表了题为“Modeling Label Dependencies for Audio Tagging with Graph Convolutional Network”的学术论文。
音频标注任务旨在识别出一段音频中出现的音频事件类别,该任务受限于数据规模和弱标签等问题,仍是一个研究难题。作为声学场景和事件分析的重要任务,音频标注有许多应用,包括信息检索、音乐标注等。
作为一个多标签分类任务,之前的方法忽略了音频事件间依赖关系的建模。比如在一段音频中,钢琴声往往与吉他声更容易一起出现,而和婴儿哭声间共现的情况很少。本论文探索了音频事件间的依赖关系,并创新性地引入图模型来构建这种关系。具体而言,每种音频事件使用图中的每个节点来表示,图的边代表节点间的关系,图的邻接矩阵使用训练数据中标签间的统计概率来表示。本论文首次使用图卷积网络来建模标签依赖性,并采用卷积神经网络对声学信号提取特征,最后将节点表征与声学表征进行联合建模。
为了证明所提出的方法的有效性,本论文在大规模真实数据AudioSet上进行实验验证。相较其他先进方法,本论文提出方法在相同实验设置下实现了最佳性能表现,同时通过消融实验与可视化分析验证了所提出方法的有效性。
表:提出方法与其他先进方法性能比较
IEEE Signal Processing Letters是中科院JCR分区二区期刊,影响因子为3.105。2019级硕士生王赫麟为该论文第一作者,邹月娴教授为通讯作者,该工作得到了深圳市基础研究、深圳市科技计划以及深港产学研基地等项目的支持。