现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

ADSP实验室参加ASRU2019国际会议

时间:2019-12-30

2019年12月14至18日,两年一度的自动语音识别与理解研讨会(IEEE ASRU 2019)在新加坡(Singapore)圣淘沙(Sentosa)隆重举行。来自全球学术界和工业界的顶级专家和学者汇聚一堂,共同展示与探讨当代基于深度学习的语音行业发展态势及研究成果。

图1 会议现场

此次大会,ADSP实验室共发表2篇文章,研究内容涉及文本无关的说话人识别和文本相关的说话人识别技术。

 

在文本无关的说话人识别研究中,17级彭俊逸同学作为第一作者发表的文章“Logistic similarity metric learning via affinity matrix for text-independent speaker verification” 以poster的形式进行成果展示。在Affinity Loss(AL)的基础上,文章本文提出了一种新的目标函数,称为Logistic-AL损失函数,以优化端到端的优化说话人识别模型。同基于度量学习的端到端系统,其将相似/非相似样本对的距离推至某一预定的目标不同,该损失函数建立了一个可学习的决策边界来区分相似/非相似样本对。在VoxCeleb1数据上的结果表明,我们的方法明显优于基于AL和softmax loss优化的模型。

图2  彭俊逸同学在进行海报展示

在文本相关的说话人识别研究中,17级彭俊逸同学作为第一作者发表的文章“SYLLABLE-DEPENDENT DISCRIMINATIVE LEARNING FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION” 以poster的形式进行成果展示。本文提出了一种的基于音节的区分性说话人表征学习方法,用于嵌入式设备文本相关说话人识别系统。文中为了抑制帧级特征中由音节变化带来的影响,并提高特征的区分性,本文创新性设计了一种新的基于音节的聚类损失来优化帧级别特征提取网络。此外,我们还提出了两种基于音节的帧级特征聚合机制,通过对每个音节对应的帧级特征取统计特征并进行拼接,可得到具有较强区分性的段级别说话人表征。在内部唤醒数据集上的实验结果表明,与目前最先进的方法相比,本文提出的方法能够加速网络的收敛,并取得显著的性能提升。

 

除了汇报展示论文工作之外,彭俊逸和顾容之同学参与了多场专家讲座,并积极地同参会者等进行讨论和交流,收获颇丰。

图3 同与会专家的讨论与合影