2010-10-01 96 views
0

我正在做语音识别研究,我正试图设计一个在Matlab中使用神经网络进行语音识别的算法。我怎样才能定义我的网络结构?matlab中的神经网络设计

回答

1

Matlab有一个Neural Network Toolbox。也许你可以看看那个?

+0

IM使用toolbox..but有任何任何选项来定义输入并手动输出层神经元。 – Ankita 2010-10-02 12:54:03

+0

自从我使用这个工具箱已经有相当长的时间了,但我可以记住这样的事情是可能的。不幸的是,我不记得如何...... – 2010-10-02 22:14:08

0

你的问题非常一般。你应该给我们更多关于你想要做什么的具体细节。 但是,我给你提供了一些有关使用Matlab神经网络工具箱的一些提示,这些提示与我使用此工具箱的牌照识别的经验不同。希望能帮助到你。
1-您需要知道您将使用多少隐藏层以及您的输出数量。在我的情况下,我指定了20个隐藏层和9个输出。
2-您需要首先创建数据集。你将使用这个数据集来训练你的神经网络。在LPR的情况下,我使用了一个90x50矩阵作为我的数据集。每行都代表一个数字,从数字图像中提取50个数字。
3-您需要一个目标矩阵来将您的数据集映射到已知输出(因此称为训练)。
下面的语法定义中提到的网络:

net = newff(minmax(datasetNormalized'),[20 9],{'logsig' 'logsig'},'traingdx'); 

培训网络,我们写:

[dummy,b]=max(sim(net,m_normalized')); 

[net,tr]=train(net,datasetNormalized',T); 

我们使用下面的代码给出一个新的输入到网络

b是我们在这里寻找的答案(输出的概率最大),因此我们显示它用户:

msgbox(['digit is: ' num2str(b)],'Digit recognized','help'); 

这是一个完整的源代码,如果你想知道什么我的代码做什么:

clc 
clear 
close all 

numOfPhotos=90; 
imgRows=100; 
imgCols=50; 

X=zeros(numOfPhotos,(imgRows*imgCols)/100); 




%%Resize Images 
% myresize(imgRows,imgCols); 


%read train images 
datasetIndex=0;  

for i=1:numOfPhotos/10 
    for j=1:numOfPhotos/9   
     datasetIndex=datasetIndex+1; 
    im=imread(['resized_train_numbers\' num2str(i) ' (' num2str(j) ').jpg']); 
    im=im2bw(im,graythresh(im));  

    c=1; 
    for g=1:imgRows/10 
     for e=1:imgCols/10 
      s=sum(sum(im((g*10-9:g*10),(e*10-9:e*10)))); 
      X(datasetIndex,c)=s; 
      c=c+1;    
     end  
    end 

    end 
end 
datasetNormalized=zeros(numOfPhotos,imgRows*imgCols/100); 
%%Normalize dataset contents 
minDataset=min(min(X)); 
maxDataset=max(max(X)); 
for i = 1:numOfPhotos 
    for j=1:imgRows*imgCols/100 
     datasetNormalized(i, j) = (X(i,j)-minDataset)/(maxDataset-minDataset); 
    end 
end 




% 
%%Neural network part 


% T=zeros(1,90); 
% for i=1:90 
%  T(i)=ceil(i/10); 
% end 

T=zeros(9,90); 
for j=1:90 
    i=ceil(j/10); 
    T(i,j)=1; 
end 

% net=newff(datasetNormalized',T,20); 
net = newff(minmax(datasetNormalized'),[20 9],{'logsig' 'logsig'},'traingdx'); 

net.performFcn='sse'; 
net.trainParam.goal=0.01; 
net.trainParam.show=20; 
net.trainParam.epochs=100; 
net.trainParam.mc=0.95; 
% net.trainFcn='trainlm'; 
net.trainParam.min_grad=1e-12; 
[net,tr]=train(net,datasetNormalized',T); 




%Read input image for recognition 
[name file]=uigetfile('*.jpg','Choose Plate Digit Image'); 
newImg=imread([file name]); 
newImg=imresize(newImg,[imgRows imgCols]); 
newImg=im2bw(newImg,graythresh(newImg)); 
figure,imshow(newImg); 

m=zeros(1,imgRows*imgCols/100); 
c=1; 
for g=1:imgRows/10 
     for e=1:imgCols/10 
      s=sum(sum(newImg((g*10-9:g*10),(e*10-9:e*10)))); 
      m(c)=s; 
      c=c+1;    
     end 
end 
%Normalize m contents 

m_normalized=zeros(1,imgRows*imgCols/100); 
for i=1:imgRows*imgCols/100  
     m_normalized(i)=(m(i)-min(m))/(max(m)-min(m)); 
end 


[dummy,b]=max(sim(net,m_normalized')); 
% b=round(sim(net,m_normalized')); 
msgbox(['digit is: ' num2str(b)],'Digit recognized','help');