现代信号与数据处理实验室
Advanced Data & Signal Processing Laboratory

ADSP实验室参加AAAI 2026国际会议

时间:2026-01-28

近日,人工智能领域国际顶级学术会议 AAAI 2026(The 40th AAAI Conference on Artificial Intelligence)于1月20日至27日在新加坡隆重举行。作为人工智能方向最具影响力的会议之一,AAAI 长期以来汇聚了全球顶尖高校与科研机构的最新研究成果,具有广泛而深远的学术影响力。本届会议共收到23680篇投稿,最终接收论文4,167篇,整体接受率仅17.6%,吸引了来自世界各地近万学者与研究人员现场参会,学术探讨异常激烈、交流氛围十分活跃。在此次盛会上,ADSP实验室语音组博士生尹永康与视觉组硕士生唐乐翔代表实验室参会,并通过Poster形式展示了研究成果,充分展现了实验室在相关研究方向上的创新能力与学术影响力。-

其中,语音组博士生 尹永康 在会议上分享了题为 “WhisperDiari: A Whisper-Based Speaker Diarization Framework in Token Space Leveraging Semantic and Speaker Information for Better Text Adaptability” 的研究工作。该研究聚焦于说话人日志这一语音理解中的关键任务,旨在提升多说话人场景下语音转录与文本结构化的准确性与灵活性。针对现有方法在语义与说话人信息协同建模方面存在的不足,研究提出了一种基于大规模语音—文本数据的自动化数据构建思路,并结合主流语音模型架构,探索在统一表示空间内联合建模语义与说话人信息的新范式。

ADSP实验室博士生尹永康介绍工作

视觉组硕士生唐乐翔在会议上分享了题为 “Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation”的研究工作。 当前,大型视觉语言模型(LVLMs)在多模态任务中表现出色,但仍普遍存在视觉幻觉(VH)问题,即生成与视觉内容不符但自信的描述。现有VH缓解策略主要分为指令微调、辅助分析和解码时干预,这些方法在成本、延迟或可扩展性上存在局限。针对这些挑战,该研究基于“并非所有Token和Attention Heads对视觉幻觉缓解同等重要”的洞察,提出了一种轻量级、免训练的VisFlow框架。该框架通过Token级注意力干预(TAI)和注意力头级注意力干预(HAI)直接调节LVLMs解码器中的注意力模式,以增强视觉对齐并抑制语言偏见。具体而言,TAI强化了对视觉显著区域的注意力并纠正了旋转位置编码(RoPE)引入的位置关注偏差,而HAI则抑制了对语言先验的过度依赖。实验结果表明,VisFlow在各种模型和基准测试上有效地缓解了视觉幻觉,且计算开销极小,展示了其在提高LVLMs视觉忠实度方面的巨大潜力。

ADSP实验室硕士生唐乐翔介绍工作

 

实验室成员在 AAAI 2026 国际会议上的精彩亮相,不仅展示了实验室在语音与视觉智能方向的最新研究进展,也体现了团队在国际顶级学术舞台上的持续创新能力与学术影响力。通过与来自全球科研机构和高校学者的深入交流,进一步拓展了研究视野,增强了学术合作的可能性。未来,实验室将继续聚焦人工智能前沿问题,推动高水平原创研究成果产出,为相关领域的发展贡献更多智慧与力量。