现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

ADSP实验室参加 Interspeech 2025 会议

时间:2025-09-04

2025年8月17日至21日,由国际语音通讯协会(International Speech Communication Association,ISCA)主办的国际语音交流大会 Interspeech 2025 在荷兰鹿特丹隆重举行。北京大学深圳研究生院现代信号与数据处理实验室(ADSP实验室/ADSPLAB)主任邹月娴教授与博士研究生梁立名作为参会代表出席大会,并围绕实验室在语音合成、语音编辑与多模态音频生成等方向的最新进展开展学术交流与成果展示。

Interspeech开幕式后邹月娴教授和梁立名博士研究生现场合影

Interspeech 是语音处理领域的旗舰国际会议,至今已持续举办二十五届,汇聚全球高校与工业界的顶尖学者与研发团队。本届大会聚焦“公平与包容的言语科学与技术”,强调对个体差异与语言多样性的关注,涵盖语音大模型的预训练与微调、低资源语言与方言的包容性建模、个性化语音合成与辅助技术、模型可解释性与决策透明度、多语言与多模态研究等多个前沿议题。

ADSP实验室本次共有2篇高水平论文被 Interspeech 2025 接收并在大会上进行口头报告(Oral Presentation)展示:

1)SpeechSEC: A Unified Multi-Task Framework for Non-Autoregressive Speech Synthesis, Editing, and Continuation
该论文提出了一种统一的多任务非自回归框架,支持语音合成、编辑与续写,旨在实现高效、可控且可扩展的语音生成。

2)FoleyMaster: High-Quality Video-to-Audio Synthesis via MLLM-Augmented Prompt Tuning and Joint Semantic-Temporal Adaptation
该论文提出了一种面向视听融合的拟音生成方法,结合多模态大模型增强的提示优化与语义—时序联合自适应机制,实现了高质量的视频转音频合成。

两篇论文分别于在大会上进行了口头报告,向参会学者系统介绍了实验室在跨任务语音生成与视频转音频合成方向的最新方法与实验成果,获得与会专家的积极反馈。

实验室博士研究生梁立名进行Oral presentation

在为期数日的学术交流中,实验室与俞栋、李宏毅、王文武等知名学者就低资源语言建模、个性化语音合成与模型可解释性等议题深入探讨,并与腾讯、字节跳动等企业技术负责人围绕语音数据治理、跨模态检索与生成、工程化落地等热点问题开展对接,初步达成若干合作意向。两场口头报告系统展示了实验室在跨任务语音生成与视频转音频合成方向的阶段性成果,获得与会专家积极评价,进一步提升了北京大学深圳研究生院与ADSP实验室在国际学术社区的知名度与影响力。

邹月娴教授与英国萨里大学王文武教授进行学术交流

本次参会不仅帮助团队全面了解该领域最新研究趋势,也促使研究者从数据分布、用户多样性与模型可解释性等维度审视研究范式,拓展了与顶尖高校和工业界的合作网络,为后续的成果转化和学生培养打下坚实基础。面向未来,ADSP实验室将继续融合深度学习与信号处理理论,推进跨模态预训练语音与音频模型研究,探索大规模预训练向低资源语言的知识迁移机制;同时聚焦特殊口音与发音障碍的包容性建模,减少语音大模型在低资源场景中的幻觉现象,提升多模态问答对非标准语音输入的鲁棒性与跨人群一致性表现;并在医疗康复、教育平等、无障碍通信等场景推动技术落地,促进产学研深度融合与成果转化。实验室计划在2026年继续向 Interspeech 投稿并赴会交流,持续在国际学术舞台上贡献高水平研究成果。

 

撰稿人:梁立名

2025年9月4日