基于深度学习的嗓音识别分类系统设计过程

零基础实现歌唱嗓音识别分类系统)

第一章 绪论

本文描述的是一个深度学习的小白如何开发一个嗓音识别评判系统的过程、从零基础开始学习,相关学习资料我会把百度云链接放在上面,如果获取过期或者失败,评论区留言,我会补发。这是博主的第一篇文章,写的不好的地方请见谅!

明确目的

本次实验目的是要对歌唱嗓音的(男女)高、中、低音实现分类,所以要对于所谓的音频之间差异要有所了解。
人类通过控制喉咙肌肉,牵扯声带从而使其改变张力、厚薄,让气流冲击声带,而声带颤动时带来频率上面的变化就能发出高、中、低声区三个声区的声音。高声区也称为头声区,中声区也称为混声区、低声区又称为胸声区,声区概念与艺术歌唱中的主要声部有所不同。男高中低音和女高中低音这六个分类只是代表了不同的音域,而在乐理学上,每个音域又有单独划分的三个声区。
在声乐广义上的分类,女高音的音域是c1—a2共15度,按照音色、音区区度特点可分为:花腔女高音、抒情女高音、戏剧女高音以及抒情花腔女高音和抒情戏剧女高音[1];女中音音域a—a2,较高的女中音与戏剧女高音相似,同样,低的女中音跟女低音很接近,对于没有音乐基础的人来说,并没有什么区别;女低音音域为f—f2,无论男女低音都很好分辨,声音比较厚重,坚实,像是有异物压住喉咙一样;男高音音域为c1—a2同样可以根据音色分为抒情男高音、戏剧男高音、轻盈型男高音,音域为c1—a2;男中音为a—f2;男低音音域为g—d2 。各自的分类如表1所示。

基于深度学习的嗓音识别分类系统设计过程

环境安装

我们首先安装好Python环境,建议往后的anaconda、TensorFlow的安装都要从官网下载安装包。
Python版本号为3.6.3(https://www.python.org/downloads/release/python-363/)我之前用的是3.7以上,但是后来并不好用,改为3.6.
基于深度学习的嗓音识别分类系统设计过程
下载安装好之后,还要进行环境变量配置,具体请百度,再这不详细介绍了。成功之后图如下:
基于深度学习的嗓音识别分类系统设计过程
下面进行anaconda的安装,这里直接给出百度云链接:
链接:https://pan.baidu.com/s/1_aFCyFTRiPrxlIO7rxpv_w
提取码:jhy4
需要记住的是,安装到某一步时需要勾选环境变量(变红是正常的):
基于深度学习的嗓音识别分类系统设计过程
然后开始TensorFlow的安装
博主的电脑是i5-4210MQ\GPU是GTX965M,相对比之下肯定安装GPU 版本。当然CPU版本的我也会提一句
1、CPU版本:
适合集成显卡,amd显卡全部,或者低于英伟达gt750M的电脑

在cmd里面输入:
pip install tensorflow==2.0.0 -i https://pypi.douban.com/simple --user(==2.0.0 表示指明安装的版本 --user表示权限 、-i https://pypi.douban.com/simple 表示从此链接下载镜像能加快安装速度。)

2、安装GPU的tensorflow (电脑必须有英伟达显卡,并且性能要gt750M以上级别----你的电脑如果是才购买1年,就肯定可以,并且是英伟达显卡,肯定可以)
下载cuda9.0 和 cudnn 7.0.5
打开
https://developer.nvidia.com/cuda-90-download-archive
按照如下选择下载(以win10为例):

基于深度学习的嗓音识别分类系统设计过程

Cudnn下载如下:
打开https://developer.nvidia.com/rdp/cudnn-download

基于深度学习的嗓音识别分类系统设计过程

基于深度学习的嗓音识别分类系统设计过程
Cuda9.0和cudnn7.0.5都下载后,开始安装cuda9.0
双击cuda9.0下载文件,然后一直按照默认选择,直到安装选项,按照如下勾选:

基于深度学习的嗓音识别分类系统设计过程
然后点击下一步就可以了,Cudnn7.0.5解压缩,得到一个cuda文件夹,复制里面的所有文件,粘贴到如下位置:
基于深度学习的嗓音识别分类系统设计过程
然后在cmd里面输入安装:
pip install tensorflow-gpu2.0.0 -i https://pypi.douban.com/simple --user
后期要使用的库,比如keras,可以直接在windows终端输入:
pip install keras
2.2.5
基于深度学习的嗓音识别分类系统设计过程
没有报错就表示成功!
目前整个环境已经安装完毕,我们可以进行下一步的学习工作