腾讯AI Lab副主任俞栋博士应邹老师邀请来我院做学术报告
撰稿人:顾容之
2017年11月1日下午16点,应邹月娴教授邀请,腾讯AI Lab副主任俞栋博士来我院访问交流,在C栋103教室发表了主题为“Monaural Speech Separation – a Personal Journey”的学术讲座。讲座开始前20分钟,教室就已经座无虚席,同学们均以极大的热情欢迎俞栋博士的到来。讲座由邹月娴教授主持,参加讲座的有来自北京大学信息工程学院的朱跃生教授、焦海龙博士、信息工程学院的研究生、博士生和其他来宾。
图1 俞栋博士在做学术讲座
俞栋博士是一名杰出的语音识别、深度学习方向的资深专家,在学术界和工业界都享有极高声望,现为腾讯AI Lab的副主任。1998年加入微软,曾任微软首席研究员,兼任浙江大学兼职教授和中科大客座教授。在语音技术领域,他发表了160多篇论文,被引15000余次;并拥有50多个授权专利,曾获得IEEE Signal Processing Society 2013和2016年的最佳论文奖,和ACMSE 2005年最佳论文奖。俞栋博士在基于深度学习的语音识别方向的前沿工作,在学术界和工业界均引起了基础理论的巨大变化,取得了一系列该领域的杰出成果。他还是微软深度学习开源软件CNTK的发起者和主要作者之一。他与邓力博士的两本共同著作《深度学习:方法及应用》《解析深度学习:语音识别实践》在深度学习语音研究者中产生巨大影响。
讲座中,俞栋博士以“a Personal Journey”的形式,讲述了他的团队就“单声道语音分离和识别”(即“鸡尾酒会”)这一尚未攻克的难题开展的各种研究工作以及研究经历,给与会者极大的启发。
图2 邹月娴教授主持该次学术讲座
俞栋老师从他们开题、破题以及第一次尝试开始讲解。首先他们采用时频掩膜学习的方法来提取混合语音,并根据观察“干净语音有相对更低的熵”,以获得最小熵的干净语音为学习目标建模。但是,这次尝试失败了,原因是一旦学习了错误的掩膜,那么接下来的学习将全部错误。
第二次尝试采用监督学习的方法,训练一个高能量DNN和一个低能量DNN,将混合语音分别输入两个模型,分别得到高能量和低能量语者的语音估计。效果比上一次尝试好了很多,但是在两个说话人能量相近时,可分度下降,模型分离效果变差。改进是根据当前输入帧动态地决定哪个能量高即分配到哪个标签。但是,这产生了新的问题,如何跟踪相同的说话人呢?俞栋博士的团队采用了two-talker joint decoding的方法来解决这一问题。
接下来,俞栋博士介绍了他们最近的工作——Permutation Invariant Training (PIT,置换不变训练)。由于不同的语音组合都可以得到同样的混合语音,因此,需要采用一些复杂的软限制从训练集中找到隐藏规律。一种解决方法是人工定义规则,即上文所说的,用即时能量来确定标签,但是这会带来说话人追踪问题;第二种解决方法是深度聚类,将语音信号映射到嵌入空间,用基于集群的距离将相同说话人的时频点聚类,但是这种方法使得训练和识别变得复杂,不易于与其它方法融合;俞栋博士团队提出了第三种方法——PIT,由当前模型决定使得分离性能最好的标签,而不关心到底如何输出标签,这种方法使得错误率进一步减小,而且识别相对简单。
最后,俞栋博士对语音分离问题作了总结和展望:第一,在相同性别的混合语音中,性能仍然有待提升;第二,是否可以利用多通道(麦克风阵列)的语音信号作更好的语音分离;第三,是否有比LSTM更好的语音分离和追踪模型;第四,是否有更好的策略结合语音分离和识别;第五,怎样利用一些附加信息,比如语言模型和解码信息,去提高多语者的语音分离和识别问题。
图3 俞栋博士回应同学提问
讲座结束后,同学们纷纷就自己感兴趣的问题对俞栋博士请教,俞老师也作了详细的回复和讲解。最后,嘉宾和部分同学与俞栋博士合影留念。这次讲座中,俞栋老师没有回避在问题研究上的失败与不足,而是从每次失败中找到原因、发现问题,并针对性地去解决它。这段宝贵经验鼓励并启发了在座的同学们,要勇于尝试、开拓创新,即使失败的尝试也有非凡的意义。