2011-09-22 47 views
0

我试图分析串联的音频和视觉功能。我的音频语音功能是使用隐马尔可夫模型工具包以100fps采样的mel-frequency倒谱系数。我的视觉特征来自我制作的唇部追踪程序,采样率为29.97fps。上行采样/内插视频功能的简单技术?

我知道我需要插入我的视觉特征,以便采样率也是100fps,但我无法找到一个很好的解释或教程如何在线执行此操作。我发现的大部分帮助来自语音识别社区,它代表读者假定插值知识,即大多数用简单的“内插视觉特征以便采样率等于100fps”来覆盖步骤。

任何人都可以让我在正确的方向吗?

万分感谢

+0

这个问题可能更适合http://dsp.stackexchangecom,因为它实际上是关于信号处理而不是编程*本身*。 –

回答

1

由于面部运动不低通之前,视频捕捉过滤,最经典的DSP插值方法可能不适用。你也可以尝试对你的特征向量进行线性插值,从一组时间点到另一组时间点的集合。只需选择2个最接近的视频帧并插入以获取更多数据点。如果您的面部追踪算法测量面部运动的加速度,您也可以尝试样条插值。

+0

谢谢:-)我会试试你的建议:-) – skymonkey