搜索一个声音咬的情况下，在音频文件

问题描述：

我有两个音频文件。一个持久大致一秒钟，含有一种很乏味“嘟嘟”声，而另一个持续约60分钟，填充有随机的声音（说话，噪声等），以及相同的“嘟嘟”声噪声（NB的实例：在“哔”声可能与其他声音同时发生！）。搜索一个声音咬的情况下，在音频文件

任何人都可以建议我一个简单的方法来写一个程序，通过60分钟的音频文件搜索，并返回一个时间戳每个实例找到的“嘟嘟”声的噪音？我一直在四处搜寻如何做到这一点，但我很难搞清楚哪些条款可以搜索/阅读。

如果可能，我宁愿使用Python，但我也愿意使用C，C++，Java或（对我来说最明显的）Matlab。随意指向我的教科书，概念或任何其他你认为可能有所帮助的东西。我愿意做大量的学习来弄清楚如何做到这一点。任何帮助是极大的赞赏！

编辑：标题为清楚起见

仅供参考，声音几乎总是大于一个字节。你可能意思是“健全的咬”，这是一个短暂的声音。 – cHao 2011-03-29 00:20:17

答

我猜，你必须打开信号到频域（FFT），然后读取从开始到结束的声音，和搜索的地方，你想要的频率超过了一些门槛，然后看它至少重复一秒钟。希望你的嘟嘟声响得足够响亮，这样门槛可以设置得足够高，声音不会与“背景”噪音和声音混淆。

答

你正在寻找被称为音频指纹识别技术。它在this answer说明。

答

首先，你必须明白的是你想要做的不是一个简单和容易的事。它就像给计算机听取和匹配声音一样。让它更容易理解人类感知它的方式。您可以浏览某些开源项目以获取帮助。查找与本主题密切相关的开源项目的AcoustID和chromaprint。