Athena跑aidatatang数据集

Aidatatang数据集介绍

Aidatatang_200zh免费中文普通话语料库，语料库包含200个小时的声学数据，来自中国不同口音领域的600位演讲者被邀请参加录制。

机器环境：
Ubuntu16.04 GPU GeForce RTX 2080
TensorFlow2.01 cuda10.2

Athena的安装过程这里不再详细说明。可参考上一篇的demo
https://blog.****.net/zyjzyj55/article/details/105386192 或者github上的详细。

数据准备：
到 http://www.openslr.org/62/上下载aidatatang数据集。
http://www.openslr.org/resources/62/aidatatang_200zh.tgz
下载完成后，我这里存放opensource_data目录下面。
Athena跑aidatatang数据集
训练脚本跟aishell差不多，copy一份aishell脚本在上面修改。主要是数据处理那里有些不同。

参考aishell脚本数据准备的修改，将aidatatang数据解压，将音频数据解压到wav文件目下。

由于解压后在wav文件下的数据包含有txt、trn、metadata文件，这里我们要过滤掉，只要保留wav音频文件。
Athena跑aidatatang数据集
数据准备完毕。
将sh examples/asr/aidatatang/run.sh 脚本数据路径更改成aidatatang
的路径即可。

执行 sh examples/asr/aidatatang/run.sh 运行即可。

Athena跑aidatatang数据集

相关推荐