“语音触发”检测
我有一个语音应用程序,如果有能力使用“触发词”开始录制音频,那么这个语音应用程序将会有很大的改进。我不需要一个完整的语音文本引擎,只需要能够可靠/有效地检测触发词。“语音触发”检测
我想知道是否有任何专门的语音引擎支持这个特定的用例,或任何库/方法来开发这样一个单一用途的检测引擎。理想情况下,我希望它可以在嘈杂的环境中工作,但可以训练单个用户的语音。
指向研究论文/主题也将不胜感激,所以我知道该问什么。
好吧,我可以完全脱落,但使用一个全功能的语音识别库可能是矫枉过正为您的使用情况..
如果你能带动考虑这个简单的东西,但还是进行视频播放:
检测手掌是非常简单的。手掌掌控整个音频频段的能量很高。与全面的语音识别相比,检测它简单且计算方便得多。
简而言之,您可以记录音频,对数据进行(短时间)FFT并检测80%的可用频率箱中有高能量的情况。由于录音室/麦克风设置简单,80%可以处理任何阶段性问题。然后调整thresold品尝,你就完成了。
对于语音识别也是可以的,但是您会刻录CPU周期的吨。
这非常有趣。但是你能用这种方式检测语言吗?那是“嘿Siri”和“OK Google”做的吗? – 2016-07-25 20:00:07
什么是O/S?我想知道是否Speech functionality in Windows Vista会帮助你。对于任何语音分析仪来说,认识到一个单词似乎是最简单的问题。
认识到一个单词会更容易。要识别的关键词或短语越长越容易避免误报。这就是为什么有限语法识别比听写更容易和更可靠的原因。 – user57368 2009-05-23 22:54:28
就在几天前有人问到a question关于Linux上的语音识别的可能性。你所要求的是其中的一个子集,我假设其中的一些答案可能包含有用的信息。 joeforker的回答中的文章非常有趣。
解释为什么这是被投票赞成。 – hlovdal 2009-11-11 12:15:04
我有一个录音win32应用程序。我使用OCX来管理录制/播放。
我知道这不完全是你问的解决方案,但你可能要考虑脚踏板。编程简单,并且非常像一个口语词组开始/停止录音。检查这些:www.pedalpower.com
希望它能帮助,
雷纳尔多。
Red5项目中的一位同事创建了一个类似的演示,使用触发词来使搜索针对图像存储库运行。说“猫”导致猫出现在约一秒钟内的图像。客户端应用程序使用Flash编写,后端使用免费的Sphinx库在Red5上运行。没有太多努力,你当然可以用狮身人面像做你想做的。
斯芬克斯项目:http://cmusphinx.sourceforge.net/sphinx4/
是否有被说出的话?一个鼓吹或吹口哨会容易得多。 – endolith 2009-11-10 02:22:38