5 ответов
Есть целое Статья в Википедии, посвященная проблеме.
К сожалению, кажется, что в настоящее время нет ни одного решения, которое работает достаточно хорошо, но есть огромный список проектов, которые находятся в стадии реализации.
Возможно, вы захотите покопаться в списке решений, чтобы увидеть, есть ли что-то, что соответствует вашим потребностям.
Утконос:
Всегда есть возможность запустить Dragon Naturally Speaking с помощью WINE. Проект Platypus создает программное обеспечение для перенаправления вывода Dragon в любое приложение Linux / X, и они очень далеко продвинулись.
https://thenerdshow.com/platypus.html
Вы должны обязательно взглянуть на это.
Обновленный ответ - статья от марта 2018 года: " Лучшие бесплатные инструменты распознавания речи в Linux - программное обеспечение с открытым исходным кодом".
В этой статье освещается лучшее программное обеспечение для распознавания речи с открытым исходным кодом для Linux. Обратите внимание, что некоторое программное обеспечение находится на ранней стадии разработки и поэтому не готово к широкому распространению.
Прежде чем изучить наши рекомендации, Джаспер заслуживает особого упоминания. Это отличная платформа с открытым исходным кодом для разработки постоянно работающих голосовых приложений. Вы можете быть удивлены, почему HTK не отображается ниже. Безусловно, HTK - это популярный инструментарий для распознавания речи. Но HTK не имеет права участвовать в рекомендуемых решениях. Не потому, что это авторское право принадлежит Microsoft, а просто потому, что это проприетарное программное обеспечение.
Давайте рассмотрим 6 бесплатных инструментов распознавания речи под рукой. Для каждого заголовка мы составили собственную страницу портала с полным описанием и углубленным анализом его возможностей.
Инструменты распознавания речи с открытым исходным кодом
- DeepSpeech TensorFlow реализация архитектуры DeepSpeech в Baidu.
- Julius Двухпроходный большой словарь для непрерывного распознавания речи
- Simon Гибкое программное обеспечение для распознавания речи
- CMUSphinx Система распознавания речи для мобильных и серверных приложений
- deepspeech.pytorch Реализация DeepSpeech2 с использованием Baidu Warp-CTC.
- Инструментарий Kaldi C++ предназначен для исследователей распознавания речи.
Вы можете установить версию Chromium 11 из ppa ppa:chromium-daily/stable
( Как добавить PPA) и добавить --enable-speech-input в конец модуля запуска.
Теперь посетите этот сайт и все! Речь к тексту на Ubuntu с использованием HTML5.
Я читал здесь, что если вы говорите медленно, это будет более точным.
freespeech-вр
Это достойная речь с открытым исходным кодом для текстового движка. Здесь исходный код ( на Google Code)
Обратите внимание, что это занимает немного конфигурации, которая менее отточена, чем конфигурация Dragon Naturally Speaking.
Dictanote
Чтобы расширить ответ Алаукика, существуют приложения, созданные на основе возможностей распознавания речи Chrome.
Я лично использую Dictanote (он очень похож на Dragon). Вот ссылка на приложение Chrome.
Попробуйте Mozilla DeepSpeech - инструмент с открытым исходным кодом для автоматической транскрипции. Но вам нужно будет обучить инструмент или загрузить предварительно обученную модель Mozilla. Для очень четких записей степень точности относительно хорошая. но для моих проектов этого все равно было недостаточно, поскольку в записях было много фоновых шумов, они не были хорошего качества, вместо этого я использовал https://transcribear.com, это веб-редактор, который позволяет выполнять автоматическую транскрипцию, но вам нужно будет подключиться к сети для загрузки записей на сервер Transcribear.
Если вы толерантны к Google, в Документах Google в Chrome есть набор текста с помощью Google Voice. Откройте пустой документ Google, выберите Инструменты-> Голосовой ввод, щелкните микрофон и говорите. В 2020 году он кажется лучше, чем в последний раз, когда я пробовал его примерно в 2018 году, похоже, примерно такой же процент ошибок, как у Dragon, на основе быстрого теста из одного абзаца. К сожалению, меньше настроек не позволяет научить его произвольному произношению слов, которых он не знает. Вот документы. Существует также плагин Chrome "Голос в голосовом вводе", позволяющий преобразовывать речь в текст во всех полях веб-ввода.