口音检测API?

问题描述:

我一直在研究构建移动/网络应用程序的可行性,该应用程序允许用户说出一个词组并检测用户的口音(波士顿,纽约,加拿大等)。用户可以说约5到10个预定义的短语。我熟悉可用的一些Speech to Text API(Nuance,Bing,Google等),但似乎都没有提供这种附加功能。我发现的最接近的例子是谷歌现在或微软的说话人识别API:口音检测API?

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为那里将是5-10预定义的短语我想用一台机器学习软件如Tensorflow或Wekinator。我会将每个口音中创建的初始音频用作初始数据。在深入探索这条道路之前,我只想获得关于这种方法的一些反馈,或者是否有更好的方法。让我知道是否需要澄清任何事情。

你可以使用(这只是一个想法,你需要做很多测试),与尽可能多的产出,你有一个SOFTMAX输出层和交叉熵成本函数

有可能口音神经网络没有公开的API用于这种罕见的任务。

强化检测作为语言检测通常使用i向量来实现。教程是here。实施是available in Kaldi

即使你的句子是固定的,你也需要大量的数据来训练系统。收集重音语音可能会更容易,而不会关注您拥有的特定句子。因为你需要将说话者内在的东西与口音内在的东西分开(基本上执行像i-向量这样的因式分解),所以端到端张量流的实现也是可能的,但可能需要太多的数据。您可以找到类似作品的描述,例如thisthis one