8

我期待记录与特定声音相对应的事件,例如汽车门砰击,或者可能是烤面包机弹出烤面包。实时识别来自连续麦克风流的非语音,非音乐声音

该系统需要比“大声探测器”更复杂;它需要能够将特定的声音与其他大声的噪音区分开来。

识别不需要是零延迟,但处理器需要跟上来自始终打开的麦克风的连续输入数据流。

  • 这个任务与语音识别有显着区别,还是我可以使用语音识别库/工具包来识别这些非语音声音?
  • 鉴于我只需要匹配一个声音(而不是声音库之间的匹配),我可以做什么特殊的优化?

This answer表明匹配滤波器将是适当的,但我对细节朦胧。由于目标声音的变化,我不相信目标声音样本和麦克风流之间的音频波形数据的简单互相关会很有效。

我的问题也类似于this,这并没有得到太多的关注。

+0

你可能有更好的运气比上http://dsp.stackexchange.com。 – mtrw

回答

3

这博士论文,Non-Speech Environmental Sound Classification System for Autonomous Surveillance,通过考灵(2004),对用于音频特征提取不同技术的实验结果,以及分类。他使用环境的声音,如紧张的原因键和脚步声,并能达到70%的准确度:

最好的方法是发现,要么连续小波变换 特征提取与动态时间规整或梅尔频率倒谱系数 具有动态时间扭曲的系数。这两种技术 都可以达到70%的识别率。

如果你只限于一种声音,也许你可能能够获得更高的识别率?

作者还提到,与语音识别(学习矢量量化和神经网络)工作相当好技术不环保的声音这么好。

我还发现一个更近的文章在这里:Detecting Audio Events for Semantic Video Search,通过Bugalho等。 (2009),他们在电影中检测声音事件(如枪声,爆炸等)。

我没有这方面的经验。由于你的问题激起我的兴趣,我只是偶然发现了这些材料。我在这里张贴我的发现,希望它有助于您的研究。

+0

链接已损坏。 – AJMansfield

+0

@AJMansfield发现了文章的备用链接。 –

3

我发现一个有趣的纸张上的主题

它应该也适用于您的应用程序,如果不比车辆声音更好。

当分析所述训练数据,它...

  1. 注意到200毫秒
  2. 样品是否傅立叶变换(FFT)对每个样品
  3. 是否在频率矢量Principal Component Analysis

    • 计算此类别所有样品的平均值
    • Subtrac ts样本的平均值
    • 计算平均协方差矩阵的特征向量(每个向量与其自身的外积的平均值)
    • 存储平均值和最显着的特征向量。

然后到声音分类,它...

  1. 注意到200毫秒(S)的样品。
  2. 对每个样品进行傅立叶变换。
  3. 从频率矢量(F)中减去类别(C)的平均值。
  4. 将频率矢量与C的每个特征向量相乘,给出每个的特征向量。
  5. 从F中减去每个数字的乘积和相应的特征向量。
  6. 获取结果向量的长度。
  7. 如果该值低于某一常数,S是公认的属于C类。