您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
工信部人工智能赋能中小企业典型应用场景案例(科研领域)

几段声音混在一起如何拆开

2026-05-25
18

12.png


这篇论文表面上讲的是“卷积型盲源分离”,但解决的问题其实不难理解:如果几段声音同时被录下来,而且声音在房间里还会反弹、拖尾、混响,能不能靠录到的混合声音,把原来的几路声音重新拆开?这件事难就难在,现实里的混合不是简单地“加在一起”,更像每一路声音先经过了一段看不见的回声通道,再一起叠到麦克风上。


作者的关键观察是:很多声音在时域里并不稀疏,但到了频域里,把声音拆成不同频率成分之后,会变得稀疏得多。你可以把它理解成,虽然整段声音一直在响,但在某一个具体时刻和具体频率上,真正“特别活跃”的分量并没那么多。论文的思路是:既然声音在频域里更稀疏,就到频域里去拆它们。作者还提出,如果源信号在频域里足够稀疏,而且混合通道的长度不太长、且能大致估计出来,这种方法甚至可以处理麦克风比声音源还少的情况。


图 1解答了为什么作者要专门为“复数值频域信号”设计新的稀疏模型。图 1 (a) 里,复数信号的实部和虚部虽然各自很稀疏,但散点图并没有显出特别清楚的方向结构;到了图 1 (b),改看两个复数信号的“模”,结构就清楚得多。作者借这个图想说明:频域信号的实部和虚部并不是互不相干的,把它们当成两个独立实数处理会丢掉一部分结构信息

13.png

基于这个观察,论文先做了第一层工作:给复数值稀疏表示设计了一个更合适的概率模型。假设频域源信号服从一种“复数拉普拉斯式分布”,基于最大后验准则,推导出一个新的自然梯度学习方法。它不是直接去猜每一路声音,而是先学一个更适合复杂频域数据的稀疏表示方式,再用这个表示方法服务后面的盲源分离。


第二层工作才是这篇论文真正想落到应用上的部分:把这套复数稀疏表示用到频域里的卷积型盲源分离。作者把时间域里的卷积模型搬到频域后,再一边估计混合通道,一边估计稀疏源信号。难点是“排列问题”,频域里不同频点上的分离结果很容易顺序对不上,今天第一个频点里“人声 A”排第一,明天第二个频点里它又可能排第二。这样一来,最后把所有频点拼回时域,声音就会错位、发花。论文在算法里专门借用了已有方法里的投影约束,尽量把不同频点的排列同步起来。


表 1 说明当混合通道长度不大时,这个方法的表现是不错的;通道一旦变长,性能就会明显变差。原因不难理解,通道越长,要估计的未知参数就越多,逆问题也更难稳定。所以这篇方法更适合低阶、相对短滤波器的卷积混合系统。


14.png


图 2 中作者拿三路歌曲混合做实验,把已有频域方法和自己的方法放在一起比。在相同混合条件下,自己这套方法分出来的波形已经和原始源信号非常接近了。不只是指标上看着好,波形层面也能看出“的确分开了”。


15.png


这篇论文还专门做了“欠定”情形的实验,也就是声源数量多于观测数量。这种情况会让人觉得“两个麦克风怎么拆三路声音”。例 4 里给出了一个正面结果:如果这些源信号在频域里足够稀疏,就还有机会分开。论文里那组实验的 SIR 达到 89.5897 dB,说明分离得相当干净。这不意味现实里所有“麦克风少于声源”的情况都能轻松解决,而是说明只要稀疏性够强,这条路可以走通。


结尾清楚地讲了两个边界。第一,这个方法是批处理的,不够快。它更像一个研究型算法,不像随手就能跑在实时系统里的工具。第二,它对混合通道长度比较敏感,通道太长时性能会掉得厉害。换句话说,这篇工作把“频域稀疏性”利用起来了;但没有把“速度”和“超长混响环境的鲁棒性”一起完全解决。


作者简介:谢胜利,广东工业大学自动化学院教授、博士生导师。长期从事控制、信号处理与智能信息处理等领域的教学与研究,研究工作涉及无线通信与网络、物联网信息技术等方向。现为国家杰出青年科学基金获得者、国家自然科学二等奖第一完成人。


DOI10.1109/TASL.2007.898457

已收藏 0
点赞 0

学术会议

​【广州线下 | ACM出版 | EI稳定检索】2026年机器学习与数据安全国际学术会议(MLDS 2026)
2026年机器学习与数据安全国际学术会议(MLDS 2026)将于2026年6月12日至14日在中国广州召开,会议聚焦机器学习、数据安全、隐私计算与系统安全、安全智能系统与应用等领域开展交流。
2026-06-12
【专家云集 | 高录用 | 往届会后四个月检索】第二届人工智能与基础模型国际学术会议(AIFM 2026)
第二届人工智能与基础模型国际学术会议(AIFM 2026)将于2026年6月26-28日在新疆乌鲁木齐盛大召开,会议由中国科学院新疆理化研究所主办,欢迎各界人士到乌鲁木齐。
2026-06-26
【IEEE出版|南方科技大学主办】第十一届电气、电子和计算机工程研究国际学术研讨会(ISAEECE 2026)
第十一届电气、电子和计算机工程研究国际学术研讨会(ISAEECE 2026)定于2026年6月12至14日在中国深圳市召开,会议旨在为相关领域专家学者提供一个可交流学术成果,促进合作的平台。
2026-06-12
【IEEE丨山东大学牵头六所高校合办】第八届电子工程与信息学国际学术会议(EEI 2026)
第八届电子工程与信息学国际学术会议(EEI 2026)将于2026年6月26日至28日在中国济南召开。EEI 2026将围绕“电子工程”、“信息学”与“计算机科学”等相关最新研究领域展开交流探讨。
2026-06-26
【顶尖国际名校主办|ACM出版|快速EI检索|可线上参会】2026年第三届人工智能与未来教育国际学术会议(AIFE 2026)
2026年第三届人工智能与未来教育国际学术会议(AIFE 2026)将于6月26日-28日在日本召开,本次会议主要围绕人工智能与未来教育等相关主题展开广泛深入的研讨与交流。
2026-06-26
【安徽大学主办 | 每届提交后2-3个月检索】第五届半导体与电子技术国际研讨会(ISSET 2026)
第五届半导体与电子技术国际研讨会(ISSET 2026)将于2026年7月24-26日在安徽召开,诚意邀请相关领域的专家学者参与交流,共同推动学科发展和行业进步。
2026-07-24
相关资讯

打破纪录!中国科学家让薛定谔的猫活了23分钟

中科大团队成功让薛定谔的猫活了长达整整23分钟!

42370

5

2024-11-25

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

性行为缺失会促癌?华中大最新:性行为缺失会削弱抗癌免疫力,保持性行为则有利于抗癌

35394

4

2026-01-30

24

0

2026-05-27

22

0

2026-05-27