实时识别来自连续麦克风流的非语音，非音乐声音

我期待记录与特定声音相对应的事件，例如汽车门砰击，或者可能是烤面包机弹出烤面包。实时识别来自连续麦克风流的非语音，非音乐声音

该系统需要比“大声探测器”更复杂;它需要能够将特定的声音与其他大声的噪音区分开来。

识别不需要是零延迟，但处理器需要跟上来自始终打开的麦克风的连续输入数据流。

This answer表明匹配滤波器将是适当的，但我对细节朦胧。由于目标声音的变化，我不相信目标声音样本和麦克风流之间的音频波形数据的简单互相关会很有效。

我的问题也类似于this，这并没有得到太多的关注。

2011-11-27 kostmo

你可能有更好的运气比上http://dsp.stackexchange.com。 – mtrw

这博士论文，Non-Speech Environmental Sound Classification System for Autonomous Surveillance，通过考灵（2004），对用于音频特征提取不同技术的实验结果，以及分类。他使用环境的声音，如紧张的原因键和脚步声，并能达到70％的准确度：

最好的方法是发现，要么连续小波变换特征提取与动态时间规整或梅尔频率倒谱系数具有动态时间扭曲的系数。这两种技术都可以达到70％的识别率。

如果你只限于一种声音，也许你可能能够获得更高的识别率？

作者还提到，与语音识别（学习矢量量化和神经网络）工作相当好技术不环保的声音这么好。

我还发现一个更近的文章在这里：Detecting Audio Events for Semantic Video Search，通过Bugalho等。（2009），他们在电影中检测声音事件（如枪声，爆炸等）。

我没有这方面的经验。由于你的问题激起我的兴趣，我只是偶然发现了这些材料。我在这里张贴我的发现，希望它有助于您的研究。

2011-11-27 11:41:00

链接已损坏。 – AJMansfield

@AJMansfield发现了文章的备用链接。 –

我发现一个有趣的纸张上的主题

Vehicle Sound Signature Recognition by Frequency Vector Principal Component Analysis由华东吴，梅尔西格尔，和Pradeep科斯拉（上仪器和测量在IEEE Transactions第48卷，第5，1999年10月）

它应该也适用于您的应用程序，如果不比车辆声音更好。

当分析所述训练数据，它...

注意到200毫秒
样品是否傅立叶变换（FFT）对每个样品
是否在频率矢量Principal Component Analysis
- 计算此类别所有样品的平均值
- Subtrac ts样本的平均值
- 计算平均协方差矩阵的特征向量（每个向量与其自身的外积的平均值）
- 存储平均值和最显着的特征向量。

然后到声音分类，它...

2011-11-27 12:50:03

回答