Приложение распознавания речи для преобразования MP3 в текст?
Кто-нибудь знает приложение, которое может конвертировать аудио в текст? Я использую Ubuntu 12.04 LTS.
4 ответа
Программное обеспечение, которое вы можете использовать - CMUSphinx. В отличие от предложенного в другом ответе Юлиус не подходит, потому что для этого нужны модели. Модели для распознавания речи с большим словарным запасом не доступны для Юлиуса.
Вы можете использовать pocketsphinx для конвертации аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Бегущий карманный сфинкс
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Результат будет сохранен в файле result.txt.
Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, для того, чтобы получить актуальную версию pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge (не уверен который постоянно обновляется). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше процессорных ядер, вы можете увеличить их количество.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Затем: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ загрузите новейшие версии cmusphinx-en-us-....tar.gz
а также en-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Тогда, наконец, вы можете перейти к шагам из ответа Николая:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/), который принимает подстановочные знаки и не требует точных поисковых выражений.
Надеюсь это поможет.
Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius
Описание
"Julius" - это высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой непрерывного распознавания речи (LVCSR) для исследователей и разработчиков, связанных с речью.
Или другой вариант, которого нет в Центре программного обеспечения, это Саймон
... является программой распознавания речи с открытым исходным кодом и заменяет мышь и клавиатуру.
Ссылки Ссылки
http://julius.sourceforge.jp/en_index.php
Вы можете использовать Mozilla DeepSpeech - инструмент преобразования речи в текст с открытым исходным кодом. Но вам нужно будет обучить приложение или загрузить предварительно обученную модель Mozilla. Для моего проекта точность все еще была недостаточной, так как аудиофайлы не были хорошего качества, и вместо этого использовался https://transcribear.com, веб-редактор с возможностями преобразования речи в текст, но вам нужно будет подключиться к Интернету, чтобы загружать записи в Transcribear сервер.
Вы можете использовать панель транскрипции https://speechpad.pw/