2017-02-16 222 views
0

对于视频字幕,我们需要将视频帧输入到Recurrent Neural Network中。如果我们提供了视频,提取帧的标准标准是什么,例如帧采样率和图像分辨率要求。从视频中提取帧的标准为视频字幕

我也想知道,当我们做视频字幕时,我们是否首先提取视频的所有帧,将它们保存为输入,或者我们在处理它们的同时提取帧。

回答

0

从你的问题来看,它并不完全清楚,所以它可能值得一提的是,字幕和字幕通常存储在与视频本身不同的文件中,即它们不会直接添加到视频流中。还值得注意的是,大多数视频容器(例如MP4文件)将具有单独的视频和音频轨道。

根据您要添加的字幕的类型,该方法可能会有所不同 - 例如,如果标题是简单的描述性注释,那么它们通常会手动添加以便在编辑器选择的视频的任意位置呈现。

如果标题要提供演讲稿,那么他们显然必须与音频和视频流保持一致,并且通常会从音频流中生成并使用其时间戳。

有在不同的地区和不同的部署字幕多种不同的标准,但一些最常见的有:

  • SMPTE-TT
  • TTML

一般情况下,无论格式,将会有一种机制将标题(如果需要)与视频的任何帧相关联 - 即允许播放器将特定视频帧与特定标题相链接的时间码。