最好的办法是找到一个开源模块,做语音识别或说话人识别(不是语音识别)。说话人识别用于识别特定的说话人,而语音识别将说出的音频转换为文本。可能有开源演讲者识别软件包,你可以尝试搜索SourceForge.net之类的“演讲者识别”或“语音和生物识别”。由于我自己没有使用过,所以我不能推荐任何东西。
如果你找不到任何东西,但你有兴趣滚动你自己的东西,那么对于任何流行语言,都有大量的开源FFT库。该技术将是:
- 得到你一个典型的记录正常说话,你的祖母以数字形式通常讲的东西用尽可能少的背景噪声尽可能
- 以音频的每一秒左右的FFT在目标记录
- 从已创建的FFT谱的阵列,滤除任何低于某一平均能量阈值,因为它们是最有可能的噪声
- 生成通过平均出非滤波FFT快照
主FFT分布
- 然后重复FFT采样技术上面的数字化目标音频(20个小时的东西)
- 国旗在目标音频文件中的任何区域,其中在任何时间指数的FFT快照类似,你的主人FFT分布为您和您的奶奶在说话。你将需要玩相似的设置,以免得到太多的误报。另请注意,您可能不得不将FFT频率箱比较限制为只有主FFT分析中具有能量的那些频率箱。否则,如果你和你的祖母谈话的目标音频含有明显的背景噪音,它会抛弃你的相似性功能。
- 炮制出的人工检查
注意,小时数来完成这个项目很容易超过20小时听录音手动的时间索引列表。但与通过20小时的音频打磨相比,它会更有趣,并且您可以使用未来再次构建的软件。
当然,如果声音是不是从隐私角度来看敏感,你可以外包的音频试听任务,像亚马逊的Mechanical Turk。
+1“我明白,我可以很容易地花费超过20小时。“ – 2011-04-22 18:19:07
你的最后一行在这里指的是[漫画](https://xkcd.com/1319/)。 – jjj 2017-07-12 18:18:18