ADSP实验室在信号处理方向权威期刊SPL上发表学术论文

时间：2020-11-04

撰稿人：王赫麟

近日，邹月娴教授在信号处理方向权威期刊IEEE Signal Processing Letters (SPL) 上发表了题为“Modeling Label Dependencies for Audio Tagging with Graph Convolutional Network”的学术论文。

音频标注任务旨在识别出一段音频中出现的音频事件类别，该任务受限于数据规模和弱标签等问题，仍是一个研究难题。作为声学场景和事件分析的重要任务，音频标注有许多应用，包括信息检索、音乐标注等。

作为一个多标签分类任务，之前的方法忽略了音频事件间依赖关系的建模。比如在一段音频中，钢琴声往往与吉他声更容易一起出现，而和婴儿哭声间共现的情况很少。本论文探索了音频事件间的依赖关系，并创新性地引入图模型来构建这种关系。具体而言，每种音频事件使用图中的每个节点来表示，图的边代表节点间的关系，图的邻接矩阵使用训练数据中标签间的统计概率来表示。本论文首次使用图卷积网络来建模标签依赖性，并采用卷积神经网络对声学信号提取特征，最后将节点表征与声学表征进行联合建模。

图：音频事件依赖关系示意图

图：提出的网络结构示意图

为了证明所提出的方法的有效性，本论文在大规模真实数据AudioSet上进行实验验证。相较其他先进方法，本论文提出方法在相同实验设置下实现了最佳性能表现，同时通过消融实验与可视化分析验证了所提出方法的有效性。

表：提出方法与其他先进方法性能比较

IEEE Signal Processing Letters是中科院JCR分区二区期刊，影响因子为3.105。2019级硕士生王赫麟为该论文第一作者，邹月娴教授为通讯作者，该工作得到了深圳市基础研究、深圳市科技计划以及深港产学研基地等项目的支持。

上一篇：ADSP实验室在多媒体领域顶级期刊TMM上发表学术论文
下一篇：ADSP实验室在自然语言处理领域顶级会议COLING上发表学术论文