“语音触发”检测

问题描述：

我有一个语音应用程序，如果有能力使用“触发词”开始录制音频，那么这个语音应用程序将会有很大的改进。我不需要一个完整的语音文本引擎，只需要能够可靠/有效地检测触发词。“语音触发”检测

我想知道是否有任何专门的语音引擎支持这个特定的用例，或任何库/方法来开发这样一个单一用途的检测引擎。理想情况下，我希望它可以在嘈杂的环境中工作，但可以训练单个用户的语音。

指向研究论文/主题也将不胜感激，所以我知道该问什么。

是否有被说出的话？一个鼓吹或吹口哨会容易得多。 – endolith 2009-11-10 02:22:38

答

好吧，我可以完全脱落，但使用一个全功能的语音识别库可能是矫枉过正为您的使用情况..

如果你能带动考虑这个简单的东西，但还是进行视频播放：

检测手掌是非常简单的。手掌掌控整个音频频段的能量很高。与全面的语音识别相比，检测它简单且计算方便得多。

简而言之，您可以记录音频，对数据进行（短时间）FFT并检测80％的可用频率箱中有高能量的情况。由于录音室/麦克风设置简单，80％可以处理任何阶段性问题。然后调整thresold品尝，你就完成了。

对于语音识别也是可以的，但是您会刻录CPU周期的吨。

这非常有趣。但是你能用这种方式检测语言吗？那是“嘿Siri”和“OK Google”做的吗？ – 2016-07-25 20:00:07

答

什么是O/S？我想知道是否Speech functionality in Windows Vista会帮助你。对于任何语音分析仪来说，认识到一个单词似乎是最简单的问题。

认识到一个单词会更容易。要识别的关键词或短语越长越容易避免误报。这就是为什么有限语法识别比听写更容易和更可靠的原因。 – user57368 2009-05-23 22:54:28

答

就在几天前有人问到a question关于Linux上的语音识别的可能性。你所要求的是其中的一个子集，我假设其中的一些答案可能包含有用的信息。 joeforker的回答中的文章非常有趣。

解释为什么这是被投票赞成。 – hlovdal 2009-11-11 12:15:04

答

我有一个录音win32应用程序。我使用OCX来管理录制/播放。

我知道这不完全是你问的解决方案，但你可能要考虑脚踏板。编程简单，并且非常像一个口语词组开始/停止录音。检查这些：www.pedalpower.com

希望它能帮助，

雷纳尔多。

答

Red5项目中的一位同事创建了一个类似的演示，使用触发词来使搜索针对图像存储库运行。说“猫”导致猫出现在约一秒钟内的图像。客户端应用程序使用Flash编写，后端使用免费的Sphinx库在Red5上运行。没有太多努力，你当然可以用狮身人面像做你想做的。
斯芬克斯项目：http://cmusphinx.sourceforge.net/sphinx4/

“语音触发”检测

相关推荐