实验五 语音识别(选做)
实验描述
根据声音样本来确定一个人的性别看似是一件很容易的事情。通常,人耳就可以很容易辨别出男性与女性声音的差异。那么,如何让计算机也能自动识别出男性或者女性的声音呢。为了通过声音辨别性别,需要一个训练数据库。这个数据库由成千上万的男性和女性的声音样本建立起来,每个声音都以男性或女性的性别标记。 每个语音样本都存储为.WAV文件,然后对其进行预处理,测量声学信号的声学参数。预处理WAV文件的输出保存为一个CSV文件。 本实验,你将利用声音样本数据集,建立神经网络模型对声音进行分类。请按要求完成实验。
数据集:
文件train.csv为该实验的训练集,包含2536个声音样本,对应数据集的每行数据。每行数据包含每个样本的20个特征和样本的类别信息(男性或女性)。
文件test.csv为测试集,用于评估算法性能。格式与训练集相同。
实验要求:
(1)通过对训练集进行学习,建立神经网络模型并利用测试集测试算法分类的正确率(accuracy)。具体实验步骤应包括数据的可视化和预处理,模型建立与训练以及测试结果等。
(2)尝试使用其他机器学习方法进行实验,并作比较分析。
实验原理
就是简单的BP神经网络。。
使用WeKa进行求解
BP神经网络求解
可视化神经网络
在训练数据集上的正确率和模型建立的耗费时间
在测试集上的正确率
使用C4.5算法进行求解
可视化决策树
训练集正确率
测试集正确率
算法比较
BP神经网络算法的正确率只高了一点点,但是时间耗费却非常大。决策树在某些情况下求解的结果更优(相同时间内),个人觉得在某种意义上,决策树算法的性能优于BP神经网络(逃)。