我试图分析串联的音频和视觉功能。我的音频语音功能是使用隐马尔可夫模型工具包以100fps采样的mel-frequency倒谱系数。我的视觉特征来自我制作的唇部追踪程序,采样率为29.97fps。上行采样/内插视频功能的简单技术?
我知道我需要插入我的视觉特征,以便采样率也是100fps,但我无法找到一个很好的解释或教程如何在线执行此操作。我发现的大部分帮助来自语音识别社区,它代表读者假定插值知识,即大多数用简单的“内插视觉特征以便采样率等于100fps”来覆盖步骤。
任何人都可以让我在正确的方向吗?
万分感谢
这个问题可能更适合http://dsp.stackexchangecom,因为它实际上是关于信号处理而不是编程*本身*。 –