语音库的分析与评价
说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:
1、说话人的数量和差异性
2、说话人录音的次数及录音间隔
3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)
4、录音设备,录制环境,传输信道
影响因素 | 选项 |
---|---|
人数 | |
录音方式 | 多次重复录音、转录语音、录音回放语音 |
采集设备 | 宽带(麦克风)、窄带(电话、手机) |
录音环境 | 安静、嘈杂 |
录音内容 | 数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言 |
口音分布 | 不同省市、自治区 |
一些结论:
相对于宽带语音数据,窄带语音数据的识别效果大幅降低;
不同的文本和语言风格对识别性能也有很大影响,
参考:
- 面向移动互联环境的说话人识别语音库SRMC
- 录音回放说话人身份认证语音数据库