我期待记录与特定声音相对应的事件,例如汽车门砰击,或者可能是烤面包机弹出烤面包。实时识别来自连续麦克风流的非语音,非音乐声音
该系统需要比“大声探测器”更复杂;它需要能够将特定的声音与其他大声的噪音区分开来。
识别不需要是零延迟,但处理器需要跟上来自始终打开的麦克风的连续输入数据流。
- 这个任务与语音识别有显着区别,还是我可以使用语音识别库/工具包来识别这些非语音声音?
- 鉴于我只需要匹配一个声音(而不是声音库之间的匹配),我可以做什么特殊的优化?
This answer表明匹配滤波器将是适当的,但我对细节朦胧。由于目标声音的变化,我不相信目标声音样本和麦克风流之间的音频波形数据的简单互相关会很有效。
我的问题也类似于this,这并没有得到太多的关注。
你可能有更好的运气比上http://dsp.stackexchange.com。 – mtrw