TranslateProject/20190219 5 Good Open Source Speech Recognition-Speech-to-Text Systems.md at c38b3d8b8023023bcc64b135ecf0b6ec264779d2

document/TranslateProject

Fork 0

mirror of https://github.com/LCTT/TranslateProject.git synced 2024-12-26 21:30:55 +08:00

LuMing 39c126158f translated

2019-06-15 17:30:49 +08:00

7.7 KiB

Raw Blame History

5 款不错的开源语音识别/语音文字转换系统

======

语音文字转换speech-to-text（STT）系统就像它名字所蕴含的那样，是一种将说出的单词转换为文本文件以供后续用途的方式。

语音文字转换技术非常有用。它可以用到许多应用中，例如自动转录，使用自己的声音写书籍或文本，用生成的文本文件和其他工具做复杂的分析等。

在过去，语音文字转换技术以专有软件和库为主导，开源替代品并不存在或是有严格的限制并且没有社区。这一点正在发生改变，当今有许多开源语音文字转换工具和库可以让你立即使用。

这里我列出了 5 个。

开源语音识别库

DeepSpeech 项目

该项目由 Firefox 浏览器背后的组织 Mozilla 团队开发。它 100% 自由并且使用 TensorFlow 机器学习框架实现。

换句话说，你可以用它训练自己的模型获得更好的效果，甚至可以用它转换其它的语言。你也可以轻松的将它集成到自己的 Tensorflow 机器学习项目中。可惜的是项目当前默认仅支持英语。

它也支持许多编程语言，例如 Python（3.6）。可以让你在数秒之内获取：

pip3 install deepspeech
deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav

你也可以通过 npm 安装它：

npm install deepspeech

想要获得更多信息，请参考项目主页。

Kaldi

Kaldi 是一个用 C++ 写的开源语音识别软件，并且在 Apache 公共许可下发布。它可以运行在 Windows，macOS 和 Linux 上。它的开发始于 2009。

Kaldi 超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的三方模块可以用来完成你的任务。Kaldi 也支持深度神经网络，并且在它的网站上提供了出色的文档。

虽然代码主要由 C++ 完成，但它通过 Bash 和 Python 脚本进行了封装。因此，如果你仅仅想使用基本的语音到文字转换功能，你就会发现通过 Python 或 Bash 能够轻易的完成。

Project’s homepage.

Julius

可能是有史以来最古老的语音识别软件之一。它的发展始于 1991 年的京都大学，之后在 2005 年将所有权转移到了一个独立的项目组。

Julius 的主要特点包括了执行实时 STT 的能力，低内存占用（20000 单词少于 64 MB），输出最优词N-best word/词图Word-graph的能力，当作服务器单元运行的能力和很多东西。这款软件主要为学术和研究所设计。由 C 语言写成，并且可以运行在 Linux，Windows，macOS 甚至 Android（在智能手机上）。

它当前仅支持英语和日语。软件或许易于从 Linux 发行版的仓库中安装。只要在软件包管理器中搜索 julius 即可。最新的版本发布于大约一个半月之前。

Project’s homepage.

Wav2Letter++

如果你在寻找一个更加时髦的，那么这款一定适合。Wav2Letter++ 是一款由 Facebook 的 AI 研究团队于 2 个月之前发布的开源语言识别软件。代码在 BSD 许可下发布。

Facebook 描述它的库是“最快最先进state-of-the-art的语音识别系统”。构建它时的想法使其能在默认情况下对性能进行优化。Facebook 最新的机器学习库 FlashLight 也被用作 Wav2Letter++ 的底层核心。

Wav2Letter++ 需要你先为所描述的语言建立一个模型来训练算法。没有任何一种语言（包括英语）的预训练模型，它仅仅是个机器学习驱动的文本语音转换工具，它用 C++ 写成，因此命名为 Wav2Letter++。

Project’s homepage.

DeepSpeech2

中国巨头百度的研究人员也在开发他们自己的语音文字转换引擎，叫做“DeepSpeech2”。它是一个端对端的开源引擎，使用“PaddlePaddle”深度学习框架进行英语或汉语的文字转换。代码在 BSD 许可下发布。

引擎可以训练在任何模型之上，并且可以用于任何想要的语言。模型并未随代码一同发布。你要像其他软件那样自己建立模型。DeepSpeech2 的源代码由 Python 写成，如果你使用过就会非常容易上手。

Project’s homepage.

总结

语音识别领域仍然主要地由专有软件巨头所占据，比如 Google 和 IBM（它们为此提供了闭源商业服务），但是开源同类软件很有前途。这 5 款开源语音识别引擎应当能够帮助你构建应用，随着时间推移，它们会不断地发展。在几年之后，我们希望开源成为这些技术中的常态，就像其他行业那样。

如果你对清单有其他的建议或评论，我们很乐意在下面听到。

via: https://fosspost.org/lists/open-source-speech-recognition-speech-to-text

作者：Simon James 选题：lujun9972 译者：译者ID 校对：校对者ID

本文由 LCTT 原创编译，Linux中国荣誉推出

7.7 KiB Raw Blame History Unescape Escape

开源语音识别库

DeepSpeech 项目

Kaldi

Julius

Wav2Letter++

DeepSpeech2

总结

7.7 KiB

Raw Blame History