Spatial-feature-based Acoustic Scene Analysis UsingDistributed Microphone Array
摘要
在本文中,我们提出了一种鲁棒性强而有效的方法来利用分布式麦克风阵列提供的空间信息进行声场分析。我们的方法,类似于广泛用作谱特征的倒谱,多通道观测中幅度的对数通过线性正交变换转换为特征向量。然后,声学场景的空间信息表示空间特征。这种方法不但对麦克风的位置没有要求,而且对通道的同步信息不匹配也不敏感,这两种点使得该方法适用于分布式麦克风阵列。
关键字
声学场景分析、分布式麦克风阵列、空间倒谱、均匀分布麦克风阵列、各向同性声场
1、 介绍
使用声学信号对媒体标记,监视和自动生活记录已经进行了大量研究,这种研究被称为声学场景分析或声学事件检测[1-4]。有许多技术用于分析基于频谱特征的声场景,如梅尔频率倒谱系数(MFCC)和隐马尔可夫模型(HMM)的组合[5,6],或者直接利用时频信息[7,8]。还研究了诸如声音事件字典[9-11]或非负矩阵分解(NMF)[12]基础等中间特征。这些技术利用频谱或时间域中的稀疏性或其他约束条件,并且用较少的特征维度来有效地表示声场景。
近年来,因为声音传感器的使用率迅速增加,例如智能设备和可穿戴设备。用于声场景分析的多声道信号处理已经引起越来越多的关注,如果分布很多麦克风,那么它们就能使我们获得空间信息,这些信息可用于识别声音事件或声场景。
基于声源定位的位置信息最直接的方法就是使用多通道观测提供的空间信息。然而,即使在单一声源的情况下,由于背景噪音,混响以及诸如分隔体和书桌等大型障碍物的反射,在实际环境中源定位也并非总是很轻松的。在实际上对分布式麦克风阵列使用中,麦克风的位置并不是事先知道的。因此,它们必须在声源定位之前进行测量。此外,一个声学事件可能包括多个声源,这会导致其他困难,如多声源定位和声源数量的测量。
在本文中,我们提出了一种鲁棒性强而且高效的方法来利用分布式麦克风阵列提供的空间信息进行声场景分析。在我们的方法中,多通道观测中的幅度信息以与倒谱类似的方式被转换为特征向量。然后,声场景的空间信息用特征空间来表示。这种方法对麦克风的位置没有要求,并且对通道的同步不匹配也不敏感,这两者都使得该方法适用于分布式麦克风阵列。
本文的其余部分安排如下。在第2节中,我们介绍一种从多通道观测中提取空间特征的方法,并讨论它与倒谱的相似性。在第3节中,我们报告了关于空间特征提取的模拟实验,并通过真实环境中的声场分析来评估所提出的方法。最后在第4节中,我们对这篇文章做了总结。
2、 用于声学场景分析空间特征
假如所观察的声场景中使用N个麦克风,并且用Sω,τ,n表示多通道观测中的短时傅里叶变换(STFT),其中ω、τ和n分别表示频率、时间帧和通道数。为了稳定得提取的空间信息,我们假定麦克风的规格参数是固定的。在分布式麦克风阵列中,声道间的同步是个重要的问题,而且由于采样频率的不匹配,声音的相位信息有时候并不可信。因此在这篇论文中,我们只关注傅里叶变换中的幅度信息,αω,τ,n = |Sω,τ,n|,这样鲁棒性比频率不匹配时更好。
2.1 倒谱:谱特征
为了提取频谱特征,我们假定一个基于频率的对数幅度矢量,例如
………………………………………(1)
其中Ω是指频点数,而且
………………………………………(2)
指多声道间的平均频谱成分。此外,多声道中最大的频谱成分作为所提取频谱信息计算如下
………………………………………(3)
Рτ的离散傅里叶变换定义为
…………………………………………………(4)
被称为倒谱,其中ZΩ是Ω*Ω维的离散傅里叶变换矩阵。与倒谱很相似,梅尔倒谱系数定义使用离散余弦变换表示梅尔频率,被广泛用作频谱特征。在这两种情况下,离散傅里叶变换和离散余弦变换被用作一个合适的对数幅度信息的基本转换,并且低阶成分cτ实现了数据降维。
2.2、空间谱
类似于倒谱定义,我们在这里定义一个基于声道的对数幅度矢量,例如
……………………………………(5)
其中
……………………………(6)
是对每帧信号进行多声道功率观测。
在频域中,αω,τ表示每个子带中的幅度对数在频率轴或者梅尔频率轴均匀间隔。然而,在空间域,尤其是分布式麦克风阵列,麦克风不是均匀安放的,因此,代替离散傅里叶变换和离散余弦变换,我们使用主成分分析(PCA)。Rq表示协方差矩阵qτ,
……………………………………… (7)
其中T表示时间帧数,T 表示矢量转置。因为Rq是一个对称矩阵,Rq的特征值分解可以表示为
……………………………………………… (8)
其中,E和D分别是特征向量矩阵和对角值为特征值降序排列的对角矩阵。用E矩阵,我们定义空间特征如下
…………………………………………………… (9)
依据主成分分析,dτ中的成分互不相关,并且通过只利用大特征值的成分可以在没有较大损失信息的情况下减少特征维度。
如果麦克风的位置是呈均匀的圆形,并且声场是各向同性的,这意味着1)所有位置的声功率是相同的,2)两个观测点之间的互相关度不取决于它们位置的角度,协方差矩阵R q是一个循环矩阵,特征值矩阵E可以是一个N*N 阶的DFT矩阵Z N [13,14]。然后,等式 (9)完全等价于倒谱的定义。虽然这是一种特殊的情况下,但是我们在下文称d τ为基于这种相似性的空间倒谱(SC)。
计算SC,不需要麦克风的位置,从而便于分布式麦克风阵列处理。此外,由于与原始倒谱类似,我们可以应用倒谱均值归一化(CMN)[15]给SC以补偿麦克风灵敏度的不匹配,以及适用于倒谱域的其他技术[16]。
另外,我们可以在每个频率点上应用这种空间特征提取方法,而不需要平均该特征,并且在我们未来工作中,我们会提出一种针对连续空间谱向量的类似方法。
3、 实验
3.1 基于空间倒谱的空间表示形式
在仿真实验中,我们展示了一个多声道空间相关性和空间倒谱表示空间模式的例子。
图一展示了麦克风阵列和扬声器的安放位置。在这次实验中,每个扬声器都按一定顺序没有重叠的播放一段固定长度的1K赫兹的纯音。
图二中,左边图显示声道间的空间相关,而右边图显示空间倒谱特征表示的每个声源。为了更好的可视化,相关度归一化用诸如公式(10)来计算,其中r(i, j)是公式(7)中的协方差矩阵qτ,n的输入。
………………………(10)
图像显示空间倒谱特征可以在不使用麦克风位置的情况下表征声源的相对位置。为了对比,在图3中,左图表示计算利用幅度矢量计算声道间相关没有使用对数幅度,而右边图像表示利用主成分空间特征表征每个声源。在这种情况下,声源的相关问题表征得并不准确,而且相比实际中的距离声源1和声源2-6的距离偏小。这表明取对数相比较于频谱特征对于提取空间来说更合适。
3.2 利用真实环境声对声学场景进行分析
我们利用在客厅记录的真实环境声音数据集对空间倒谱的表现进行评价。十二个麦克风的摆放位置如图4,并且利用触发器声音使得采集到声音大致同步。这个数据集由52.1分钟长的声音组成,其中包括五种已知标签的声学场景:聊天、做饭、吸尘器、洗盘子和看电视。
我们随机的将数据集分出9333条声音片段作为训练集,分出3162条声音片段作为测试集。采样频率都是48000Hz,表1中列出了每种典型的声音场景,并且在声音录制中没有任何声音相互重叠。
然后使用高斯混合模型(GMMs)声音场景进行建模和识别。为了计算倒谱和MFCC,1)选择最大振幅和2)平均所有通道的振幅进行研究。
然后对每个声音片段做2,048点的FFT,并获得1,024维倒谱特征和12维MFCCs。在计算倒谱和MFCC之后,我们对每个通道应用了CMN。每个声场景由8个具有对角协方差的高斯分量建模。
图5,图6,图7,图8和图9显示了声学场景识别准确性的混淆矩阵inthe recall。这些结果表明,由SC提取的空间模式能够有效识别声场景相比使用倒频谱或MFCC时。结果还表明,SC在声学场景涉及诸如“吸尘”和“烹饪”等运动的情况下是稳健的。平均F分数和特征维度列于表2中。实验结果表明,即使SC维度比经典方法的维度更小也能精确识别声场景。从这些结果中,我们得出结论,所提出的方法效果明显,并且使用分布式麦克风信号能够有效的进行声场分析。
4、 总结以及未来的工作
我们提出了一种鲁棒性好而且有效的方法来提取由分布式麦克风阵列提供的空间信息。受到倒谱的启发,我们用多声道观测中对数振幅的PCA定义了空间倒谱,并表明它可以等价于在特殊情况下倒谱的原始定义。使用真实环境声音的实验结果表明,即使在使用具有较小维度的SC特征时,SC也可以精确地识别声场景。在未来的工作中,我们将结合空间和频谱特征并评估声场分析的性能。