我想创建一个应用程序,记录您对麦克风说的内容并提取所有单词。从音频剪辑中提取单词
我知道这是许多公司和个人正在研究的问题,但我不太确定我们从开发擅长此工具的工具到底有多远。
此外,有没有公开的工具来实现这一目标?我希望有一个由Google Assistant,Apple Siri提供的API,或者我可以通过上传音频片段然后获取所说的内容来使用的API。
我想创建一个应用程序,记录您对麦克风说的内容并提取所有单词。从音频剪辑中提取单词
我知道这是许多公司和个人正在研究的问题,但我不太确定我们从开发擅长此工具的工具到底有多远。
此外,有没有公开的工具来实现这一目标?我希望有一个由Google Assistant,Apple Siri提供的API,或者我可以通过上传音频片段然后获取所说的内容来使用的API。
虽然Google确实有Google Assistant SDK,但它主要目的是从您的软件或设备发送音频并从助理接收音频响应 - 就像您在Google Home中获得的响应一样。同样,Actions on Google是为了处理所有的自然语言处理(NLP),并给你一个回应 - 并不是完全给你所说的话(尽管这是一种副作用)。
听起来更像是你想要的文字(STT)系统的Cloud Speech API。您可能希望将其与诸如Cloud Natural Language API之类的东西结合起来,然后可以从生成的文本中解析出意义。
微软有Bing Speech API这是用来处理音频和提取口语。
他们也有Custom Speech Service和Speaker Recognition API
自定义语音服务是用来克服语音识别障碍,如说话方式,词汇和背景噪音。
可用的help docs and samples是一个很好的开始。
你有没有偶然发现[** pocketsphinx.js **](https://github.com/syl22-00/pocketsphinx.js)?也许值得尝试一下。 – Tholle
不知道这对你有多大用处,但是我已经用Amazon Echo及其开发者工具获得了相当不错的结果。不幸的是,你需要一个实际的设备来自己尝试语音识别;开发工具包只允许你输入能够传递给你的'技能'的东西。 –