【笔记】专访大象声科汪德亮:利用深度学习解决「鸡尾酒会问题 」

案例来源:机器之心 @吴攀
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)

1. 目标:声源分离,区分背景音和说话声音等声源,放大需要的声音。可应用于助听器等。

2. 思路:
早期的声源分离把一个信号分得很细,将一个信号分成多个组成部分——一个属于这个声源,另一个属于那个声源。
可以将声源分离转化成二分类问题:把一个听觉信号在时间域和频率域两个维度进行表示,这样就有了一个二维矩阵,矩阵中每一个元素成为一个“时频元”。每个“时频元”只有两种类型,“是目标声源”和“不是目标声源”。通过这种方式,就可以将声源分离转换成监督问题。
监督问题就可以用机器学习的方法解决。

3. 训练:采用神经网络训练分类器,文中未提到具体的神经网络模型。文章认为目前最大的问题还是标引的数据,需要不同场景的有标引的声音数据。【笔记】专访大象声科汪德亮:利用深度学习解决「鸡尾酒会问题 」

4. 效果:可以在背景音>目标声源8分贝的情况下识别目标声源。