腾讯AI Lab副主任俞栋博士应邹老师邀请来我院做学术报告

时间：2017-11-02

撰稿人：顾容之

2017年11月1日下午16点，应邹月娴教授邀请，腾讯AI Lab副主任俞栋博士来我院访问交流，在C栋103教室发表了主题为“Monaural Speech Separation – a Personal Journey”的学术讲座。讲座开始前20分钟，教室就已经座无虚席，同学们均以极大的热情欢迎俞栋博士的到来。讲座由邹月娴教授主持，参加讲座的有来自北京大学信息工程学院的朱跃生教授、焦海龙博士、信息工程学院的研究生、博士生和其他来宾。

图1 俞栋博士在做学术讲座

俞栋博士是一名杰出的语音识别、深度学习方向的资深专家，在学术界和工业界都享有极高声望，现为腾讯AI Lab的副主任。1998年加入微软，曾任微软首席研究员，兼任浙江大学兼职教授和中科大客座教授。在语音技术领域，他发表了160多篇论文，被引15000余次；并拥有50多个授权专利，曾获得IEEE Signal Processing Society 2013和2016年的最佳论文奖，和ACMSE 2005年最佳论文奖。俞栋博士在基于深度学习的语音识别方向的前沿工作，在学术界和工业界均引起了基础理论的巨大变化，取得了一系列该领域的杰出成果。他还是微软深度学习开源软件CNTK的发起者和主要作者之一。他与邓力博士的两本共同著作《深度学习：方法及应用》《解析深度学习：语音识别实践》在深度学习语音研究者中产生巨大影响。
讲座中，俞栋博士以“a Personal Journey”的形式，讲述了他的团队就“单声道语音分离和识别”（即“鸡尾酒会”）这一尚未攻克的难题开展的各种研究工作以及研究经历，给与会者极大的启发。

图2 邹月娴教授主持该次学术讲座

俞栋老师从他们开题、破题以及第一次尝试开始讲解。首先他们采用时频掩膜学习的方法来提取混合语音，并根据观察“干净语音有相对更低的熵”，以获得最小熵的干净语音为学习目标建模。但是，这次尝试失败了，原因是一旦学习了错误的掩膜，那么接下来的学习将全部错误。

第二次尝试采用监督学习的方法，训练一个高能量DNN和一个低能量DNN，将混合语音分别输入两个模型，分别得到高能量和低能量语者的语音估计。效果比上一次尝试好了很多，但是在两个说话人能量相近时，可分度下降，模型分离效果变差。改进是根据当前输入帧动态地决定哪个能量高即分配到哪个标签。但是，这产生了新的问题，如何跟踪相同的说话人呢？俞栋博士的团队采用了two-talker joint decoding的方法来解决这一问题。

接下来，俞栋博士介绍了他们最近的工作——Permutation Invariant Training (PIT，置换不变训练)。由于不同的语音组合都可以得到同样的混合语音，因此，需要采用一些复杂的软限制从训练集中找到隐藏规律。一种解决方法是人工定义规则，即上文所说的，用即时能量来确定标签，但是这会带来说话人追踪问题；第二种解决方法是深度聚类，将语音信号映射到嵌入空间，用基于集群的距离将相同说话人的时频点聚类，但是这种方法使得训练和识别变得复杂，不易于与其它方法融合；俞栋博士团队提出了第三种方法——PIT，由当前模型决定使得分离性能最好的标签，而不关心到底如何输出标签，这种方法使得错误率进一步减小，而且识别相对简单。

最后，俞栋博士对语音分离问题作了总结和展望：第一，在相同性别的混合语音中，性能仍然有待提升；第二，是否可以利用多通道（麦克风阵列）的语音信号作更好的语音分离；第三，是否有比LSTM更好的语音分离和追踪模型；第四，是否有更好的策略结合语音分离和识别；第五，怎样利用一些附加信息，比如语言模型和解码信息，去提高多语者的语音分离和识别问题。

图3 俞栋博士回应同学提问

讲座结束后，同学们纷纷就自己感兴趣的问题对俞栋博士请教，俞老师也作了详细的回复和讲解。最后，嘉宾和部分同学与俞栋博士合影留念。这次讲座中，俞栋老师没有回避在问题研究上的失败与不足，而是从每次失败中找到原因、发现问题，并针对性地去解决它。这段宝贵经验鼓励并启发了在座的同学们，要勇于尝试、开拓创新，即使失败的尝试也有非凡的意义。

上一篇：ADSP实验室参加NCMMSC 2017学术会议
下一篇：东京农工大学Toshihisa Tanaka(田中聪久)教授访问ADSPLab