语音识别API

我有一个Java应用程序。 我想在其上实现语音识别功能。

像这样:

假设,我有一些记录被用户称为“嘿”,“一”,“两”,“茶”,当他/她说“嘿”时,语音识别API应该识别记录的第一个输入。 “,”一“,”二“,”茶“可以是不是英文单词的东西。

我已经找到了一些支持语音识别的apis或者有一个audiofingerprintin算法。 但我不想使用它们。

让我解释一下为什么我不使用这些apis。 首先,语音识别API尝试理解单词并将其转换为文本。 但是这仅限于api支持的语言。 即使语音识别API支持英语语言。 由于用户的发音不好,可能会给出不好的结果。 所以我不想在我的应用程序上使用语音识别API。 因为该功能不应该是基于语言的。

此外,当我寻找语音识别API时,我发现了“音频pringerprint”apis。 我使用了开源的musicg ”api。 然后,我开发了一个测试应用程序。 该应用程序记录4个不同的音频文件,其中包含单词声音。 之后,我录制了一个与其中一个类似的声音,并且测试api使用musicg api将最后一个与之前的音频文件进行了比较。 但结果也非常糟糕。

正如我之前提到的,我需要获得一种与旧手机一样的语音识别功能。


检查卡尔迪http://kaldi-asr.org/或这张张流教程:https://www.tensorflow.org/tutorials/audio_recognition

在这两种情况下,你都可以训练模型,它不是基于语言的。 您可以训练模型的某些特定的声音或口音,或某些特定的上下文。

另外,也许这个项目会对你有所帮助:https://github.com/cmusphinx/g2p-seq2seq它不使用语言模型并将音频转换为音素。

链接地址: http://www.djcxy.com/p/64311.html

上一篇: Voice Recognition Api

下一篇: audio / voice comparison and getUserMedia