现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

美国罗切斯特大学段志尧老师应邹月娴教授邀请来我校进行学术交流

时间:2017-05-23

撰稿:石刚

        2017年5月22日下午,美国罗切斯特大学助理教授段志尧老师应邹月娴教授邀请来我校进行学术交流,并在A110会议室为同学们做了题为“Enriching Sound Interactions through Computer Audition”的学术讲座,段老师的讲座深入浅出,引人入胜,大受同学们欢迎。

        段志尧老师在罗切斯特大学担任助理教授以及电子与计算机工程系Audio Information Research(AIR) 实验室主任。他在清华大学获得了学士和硕士学位,在美国西北大学获得了博士学位。段老师的研究方向广泛,如音乐自动记谱、哼歌查询、自动伴奏以及语音的增强与识别等。

IMG_0227

图1 段志尧老师正在进行学术讲座

        段老师认为,声音是人类与周围环境进行交互的重要媒介,人类设计工具来创建、修改、录制以及转播声音的历史非常悠久。计算机听觉研究的目标就是设计智能系统来理解各种各样的声音。

        在今天的讲座中,段老师主要讲了两个方面的内容,一是音乐的自动记谱,二是声音的检索。

       在音乐自动记谱的研究种有两个难点,1)多声源、多乐器同时演奏会让自动记谱的信号处理过程非常困难;2)音乐的结构信息,如harmoy、rhythm、streams等,也会增加自动记谱的难度。段老师研究了如何将钢琴曲转换为精确度、可懂度高的乐谱,首先将乐曲的波形当作钢琴各按键发出的声音的线性叠加,预先录制各按键发音的字典,然后进行convolutional sparse coding,得到音高、音符开始时间以及持续时间,最后挖掘音乐结构、进行量化和音符替换,输出乐谱。

IMG_0234

图2 同学们正在认真听段志尧老师演讲

         然后段老师研究了如何用声音模仿作为query并返回相似声音的列表,这项技术允许人们不基于文本就能进行声音的检索。基于文本的声音查询有许多局限性,如1)label不够准确;2)很多声音资源没有文本label;3)人们对很多声音资源很难给出准确的文本label,没有准确的标注。

        讲座后,实验室同学和段老师,邹老师就语音技术的研究内容,应用领域和最新发展趋势进行了深入的讨论,同学们受益匪浅。最后大家合影留念。

IMG_0238