这篇文章更多的是关于澄清,而不是实现某种音频波形算法。我读过有关的主题(包括对SO进出网络上)的帖子无数,这里就是我已经收集:生成音频波形
- 在16位WAV的背景下,我想读的每两个字节作为
short
,这将导致介于-32768到32767之间的值。 - 对于44.1kHz的采样率,每一秒音频将有44000个采样。
这是相当直接的,但是我有以下问题:
- 在单声道呈现的WAV只有一个信道,这是每帧信息的两个字节。在立体声中,这成为四个字节的信息。在我的情况下,我不需要显示两个频道,所以我只需跳过正确的频道并只读取左侧的频道?我读过的一些解决方案提到了将左右声道结合起来,但我不确定这是否是必需的。
- 假设我有一个长度为两秒的音频文件,另一个长度为三十秒的音频文件。如果我需要抓取最少800个样本来表示波形,则会沿文件长度抓取800个样本,引入精度问题,例如,对于两个第二音频文件为
(44,000 * 2)/800
,对于第三十二音频文件为(44,000 * 30)/800
。
一个解释真的很感谢!
我们不能回答你的第一个问题,问问给你任务的人。我不明白你的第二个问题。你在谈论哪个“特定区域”?您需要2 * 44k采样来表示两秒的音频。这就是采样率的定义。使用22k样本无法录制44k音频。 –
@TamasHegedus我更新了我的第二个问题。我试图尽可能地重新说出它。简而言之,我只是试图确定44,000个样本区域内的样本是否疯狂地变化,以及是否需要进行某种平均。 – Raggeth
是啊这两个问题需要澄清 - 通过收集一堆信息不会提出一个问题 - 你没有达到它似乎的东西,你试图解释一些你不明白的东西 - 告诉我如何做到这一点 – gpasch