Athena跑aidatatang数据集

Aidatatang数据集介绍

Aidatatang_200zh免费中文普通话语料库,语料库包含200个小时的声学数据,来自中国不同口音领域的600位演讲者被邀请参加录制。

机器环境:
Ubuntu16.04 GPU GeForce RTX 2080
TensorFlow2.01 cuda10.2

Athena的安装过程这里不再详细说明。可参考上一篇的demo
https://blog.****.net/zyjzyj55/article/details/105386192 或者github上的详细。

数据准备:
到 http://www.openslr.org/62/上下载aidatatang数据集。
http://www.openslr.org/resources/62/aidatatang_200zh.tgz
下载完成后,我这里存放opensource_data目录下面。
Athena跑aidatatang数据集
训练脚本跟aishell差不多,copy一份aishell脚本在上面修改。主要是数据处理那里有些不同。
Athena跑aidatatang数据集
参考aishell脚本数据准备的修改,将aidatatang数据解压,将音频数据解压到wav文件目下。
Athena跑aidatatang数据集
由于解压后在wav文件下的数据包含有txt、trn、metadata文件,这里我们要过滤掉,只要保留wav音频文件。
Athena跑aidatatang数据集
数据准备完毕。
将sh examples/asr/aidatatang/run.sh 脚本数据路径更改成aidatatang
的路径即可。
Athena跑aidatatang数据集
执行 sh examples/asr/aidatatang/run.sh 运行即可。