1

我目前正在开发语音识别项目,并试图选择最有意义的功能。 大部分相关论文都建议使用零交叉率,F0和MFCC功能,因此我正在使用这些功能。 我的问题是,持续时间为00:03的训练样本有268个特征。考虑到我正在做一个多类分类项目,每个类训练包含50+个样本,包括所有MFCC特征可能会受到维度诅咒或“降低其他特征的重要性”项目的影响。 所以我的问题是,我应该包括所有MFCC功能,如果不是,你可以建议一个替代方案吗?语音识别所需的MFCC功能

回答

2

您不应该使用f0和过零点,它们太不稳定。您可以简单地增加训练数据并使用mcccs,它们具有良好的表示能力。但记住要将它们标准化。

+0

mfcc仅适用于语音还是可以用于任何音频/声音相关的任务? –

+1

对于某些任务MFCC可以,对于音乐识别等一些任务来说,没有足够的分辨率和其他功能。 –

2

得到各帧的MFCC系数之后,可以表示如MFCC特征的组合:增量MFCC特征的concent在此 link.

39尺寸被描述

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature 

MFCC功能馈入HMM Recurrent Neural Network

+0

1个能量特征是指什么?你是否建议使用总能量,如果是这种情况,总能量不是一个变量,也没有三角洲。 – Ugur

+0

2点能量是指从时间样本t1到t2的窗口中信号x的能量。 – Someone

+0

由于delta MFCC也有所不同,所以1 delta能量就是与之对应的能量。 – Someone

1

我想说的是MFCC不是必需的。您可以使用MFCC,并且您可以使用@Mahendra Thapa提及的能量,增量和delta-delta功能,但它不是“必需的”。一些研究人员使用40个CC,一些人从MFCC计算中删除DCT,使其成为MFSC(谱不倒谱)。一些添加额外的功能。一些使用较少。对维度诅咒的易感性取决于你的分类器,不是吗?最近一些人甚至宣称已经在语音识别的“圣杯”方面取得了进展,通过深度学习来训练原始信号的使用,学习最佳特征而不是手工制作它们。

0

MFCC被广泛使用,效果相对更好。

+0

可否请您扩展您的答案 –