口音检测API？

问题描述：

我一直在研究构建移动/网络应用程序的可行性，该应用程序允许用户说出一个词组并检测用户的口音（波士顿，纽约，加拿大等）。用户可以说约5到10个预定义的短语。我熟悉可用的一些Speech to Text API（Nuance，Bing，Google等），但似乎都没有提供这种附加功能。我发现的最接近的例子是谷歌现在或微软的说话人识别API：口音检测API？

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为那里将是5-10预定义的短语我想用一台机器学习软件如Tensorflow或Wekinator。我会将每个口音中创建的初始音频用作初始数据。在深入探索这条道路之前，我只想获得关于这种方法的一些反馈，或者是否有更好的方法。让我知道是否需要澄清任何事情。

答

你可以使用（这只是一个想法，你需要做很多测试），与尽可能多的产出，你有一个SOFTMAX输出层和交叉熵成本函数

答

有可能口音神经网络没有公开的API用于这种罕见的任务。

强化检测作为语言检测通常使用i向量来实现。教程是here。实施是available in Kaldi。

即使你的句子是固定的，你也需要大量的数据来训练系统。收集重音语音可能会更容易，而不会关注您拥有的特定句子。因为你需要将说话者内在的东西与口音内在的东西分开（基本上执行像i-向量这样的因式分解），所以端到端张量流的实现也是可能的，但可能需要太多的数据。您可以找到类似作品的描述，例如this和this one。

相关推荐