语音库的分析与评价

说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:

1、说话人的数量和差异性
2、说话人录音的次数及录音间隔
3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)
4、录音设备,录制环境,传输信道

影响因素 选项
人数
录音方式 多次重复录音、转录语音、录音回放语音
采集设备 宽带(麦克风)、窄带(电话、手机)
录音环境 安静、嘈杂
录音内容 数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言
口音分布 不同省市、自治区

一些结论:
相对于宽带语音数据,窄带语音数据的识别效果大幅降低;
不同的文本和语言风格对识别性能也有很大影响,
语音库的分析与评价
参考:

  1. 面向移动互联环境的说话人识别语音库SRMC
  2. 录音回放说话人身份认证语音数据库