我的工作/研究用于教育目的的一个项目的想法,并希望做有关语音识别的,没有什么太大的项目只是一个介绍,让我开始在外地。基本上,项目和算法会接受(.wav)文件的输入,然后确定说话的人是说“是”还是说“不”。我正在寻找使用线性预测编码。语音识别 - 线性预测编码
基本上,在我的脑海,我想下面的算法:
- 阅读在.WAV(原始数据)为载体
- 斯普利特矢量分成大小相同的块
- 处理特定特性
- 每块查找其模型是最有可能匹配到其生产的手机的串词。
然后我想使用相似性度量,例如相关来找到正确的手机。
所以,基本上,数据文件被读入后,并分割成块。应该/将包含类似:
rawdata =
[0] => 'Y',
[1] => 'E',
[2] => 'S'
或将要包含然后可以进行比较的频率结果与电话。
我的问题是,这是否看起来像一个好的算法来工作过解决问题..
我的下一个问题:
当我尝试在一个.wav文件读入内存中,我得到(类)下面的结果..
20 30 10 30 40 50 .. 20 20 .. 10 20 .. 60 40
10 20 30 40 50 60 ... .. . . . .
他们都是整数值,所以,一旦我已经采取了所有的报头信息。该数据的其余部分是什么,我需要转换成正确的媒体然后这是数据..?我有点困惑。
希望有人能帮助我,而且,我已经正确写入问题出来了。谢谢。
为什么我得到负面反馈?!?那怎么不清楚?上帝 – Phorce 2012-08-12 22:26:11
因为你的问题过于宽泛。 – orlp 2012-08-12 22:28:46
ok ....我放弃 – Phorce 2012-08-12 22:39:32