语音识别所需的MFCC功能

我目前正在开发语音识别项目，并试图选择最有意义的功能。大部分相关论文都建议使用零交叉率，F0和MFCC功能，因此我正在使用这些功能。我的问题是，持续时间为00:03的训练样本有268个特征。考虑到我正在做一个多类分类项目，每个类训练包含50+个样本，包括所有MFCC特征可能会受到维度诅咒或“降低其他特征的重要性”项目的影响。所以我的问题是，我应该包括所有MFCC功能，如果不是，你可以建议一个替代方案吗？语音识别所需的MFCC功能

来源

2016-08-08 Ugur

您不应该使用f0和过零点，它们太不稳定。您可以简单地增加训练数据并使用mcccs，它们具有良好的表示能力。但记住要将它们标准化。

来源

2016-08-10 15:46:05

mfcc仅适用于语音还是可以用于任何音频/声音相关的任务？ –

对于某些任务MFCC可以，对于音乐识别等一些任务来说，没有足够的分辨率和其他功能。 –

得到各帧的MFCC系数之后，可以表示如MFCC特征的组合：增量MFCC特征的concent在此 link.

39尺寸被描述

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature

MFCC功能馈入HMM或 Recurrent Neural Network。

来源

2016-08-11 16:36:32 Someone

1个能量特征是指什么？你是否建议使用总能量，如果是这种情况，总能量不是一个变量，也没有三角洲。 – Ugur

2点能量是指从时间样本t1到t2的窗口中信号x的能量。 – Someone

由于delta MFCC也有所不同，所以1 delta能量就是与之对应的能量。 – Someone

我想说的是MFCC不是必需的。您可以使用MFCC，并且您可以使用@Mahendra Thapa提及的能量，增量和delta-delta功能，但它不是“必需的”。一些研究人员使用40个CC，一些人从MFCC计算中删除DCT，使其成为MFSC（谱不倒谱）。一些添加额外的功能。一些使用较少。对维度诅咒的易感性取决于你的分类器，不是吗？最近一些人甚至宣称已经在语音识别的“圣杯”方面取得了进展，通过深度学习来训练原始信号的使用，学习最佳特征而不是手工制作它们。

来源

2016-11-08 03:50:26

MFCC被广泛使用，效果相对更好。

来源

2017-02-21 11:18:40 yangh

可否请您扩展您的答案 –

语音识别所需的MFCC功能

回答

相关问题