2012-01-18 46 views
1

如何在服务器端实现语音识别(请不要暗示HTML5's x-webkit-speech,javascript等)?该程序将以音频文件作为输入并以足够的准确度提供音频文件的文本转录。我可以使用哪些选项?如何设置语音识别服务器?

我尝试过实施Sphin4 with Voxforge model,但准确性很差(它们可能在我的配置中也存在一些问题,我仍试图学习它)。在一个帖子我看了,当我们使用<input name="speech" id="speech" type="text" x-webkit-speech />输入发送到外部服务器和服务器并不比识别,并将数据发送回浏览器。

我怎样才能设置该服务器?任何现有的开放源代码服务器如果能以最小的错误率识别英文句子,它也会很有用。

回答

1

你有一些问题: 1.如何捕获音频中的客户端。 2.如何将这些音频传输到服务器。 3.如何识别。 4.如何传回识别和置信度分数。 5.你将如何处理这些识别和信心评分(你的申请)。

对于第一种情况,你可以使用谷歌的做法,有人点击一个麦克风图标,记录语音一段时间。或者,iPhone Siri,VAD用于录制音频。

其次,它是基本的TCP/IP文件传输问题。也可以使用Apple的方法并使用Flac或Speex压缩音频文件。

第三,这是非常困难的部分。你需要更好的声学模型,你可以从Voxforge获得。对于连续的语音识别来说,这是特别真实的,像Siri这样的背景。对于命令,Voxforge很好。

第四,这是另一个文件传输问题。

五,它是你的应用程序。

困难的部分是语音识别部分。也许其他问题是如何为成千上万的用户扩展。 您可以使用Julius语音识别作为语音客户端来捕捉音频。我们可以私下聊这个问题。

LFU 20 @热邮件.COM

路易斯Uebel

ASR实验室

www.asrlabs.com.br

+0

我正在开发的应用程序将被安装在服务器和'解码文本'将是这个模块的输出,将被应用程序的其他模块使用...我曾尝试配置Sphinx4与VoxForge和集线器...但到目前为止没有工作看到的问题http://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4,please help ... – aProgrammer 2012-01-18 14:18:55

3

什么类型的应用程序,你实现?应用程序的目的是将用户的口头输入转录成文本还是仅仅理解简单的命令?像Sphinx4这样的系统使用语音转录的统计模型。与使用语法来限制ASR的搜索空间以获得更好的识别的自动语音识别(ASR)系统相比,您不会像这些类型的系统那样获得良好的识别。使用统计模型的系统需要大量的调整和试运行才能获得体面的认可。

Sphinx4是唯一的开源ASR我所知道的。 Nuance是市场上最大的一些商业产品/服务。一些商业产品可以选择包括人类在识别率低时抄录信息。

谷歌有它内部使用像谷歌语音服务的非官方API,我相信这是你引用的WebKit中使用的相同。 Google语音会将语音邮件转录并通过电子邮件发送给您。谷歌语音被认为是最先进的转录技术,但是如果你有一个语音账户,你会发现转录的信息并不是那么好。这里是a link to a blog article on using the unofficial Google Speech API

+0

这将是一个听写应用程序,录制用户的语音到文本格式...我正在尝试配置Sphinx4,但到目前为止无法在这方面取得成功..见http://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4 – aProgrammer 2012-01-18 14:20:49