2012-07-16 89 views
3

Siri等软件会采取语音指令并适当地回答这些问题(98%)。我想知道,当我们编写一个软件来输入语音信号流并回答这些问题时,我们是否需要将输入转换为人类可读的语言?如英语?语音识别,如Siri

就像自然界我们有这么多不同的语言,但是当我们说话时,我们基本上会产生不同的噪音。而已。但是,我们已经创建了所谓的字母表来表示这些噪音变化。

所以,同样我的问题是,当我们写的语音识别算法,我们是否符合这些噪声变化信号,与我们的数据库或第一次我们把这些噪声变化成英文,然后检查哪些从数据库回答?

回答

2

您所指的“噪声变化信号”被称为phonemes。语音识别系统如何翻译这些音素一词取决于系统的类型。 Siri不是一个基于语法的系统,您可以根据一组规则来告诉语音识别系统您期望的短语类型。由于Siri在开放的语境中翻译语音,因此可能使用某种类型的统计建模。当今流行的语音识别统计模型是隐马尔可夫模型。虽然存在涉及种类的数据库,但它不是将音素组简单地搜索成单词。对翻译过程和问题有一个很好的高层次描述here

2

苹果的Siri基于自然语言理解.. 我相信Nuance公司是幕后.. Refer This Article
Nuance公司是语音识别系统的开发负责人。 Nuance的龙引擎的精确度是很不错的... 谁IM工作消耗了Nuance的NOD的服务,为他们的IVR系统内的客户...
我试图Nuance Dragon SDK for Android ...

从我的经验,如果你使用Nuance的你不必担心噪声的变化等等等等......
但是当你为企业发布应用程序时,Nuance可能是昂贵的..

如果您打算使用Power of voice来驱动您的应用程序Google API也是更好的选择...

有API的像Sphinxpocket sphinx也可以帮助你更好地进行语音应用开发..所有上面的API都会照顾到噪声抑制和转换成语音等文字等。

所有你需要担心的是建立你的系统来理解语义给定字符串的含义或认可的语音内容。苹果应该有非常好的语义解释器。所以试试Nuance SDK。它适用于Android,iOS,Windows手机和HTTP客户端版本。

我希望它可以帮助你

+0

卡菲基恩,很好写了感谢的人!但是我更关心系统是如何工作的,而不是可用的系统。 :) – doNotCheckMyBlog 2012-07-17 00:13:15

+0

狮身人面像和PocketSphinx是开源的......你为什么不试着去了解他们已经实现了什么以及如何实现? :) – 2012-07-17 03:06:00