Конвертировать речь (аудиофайлы в формате mp3) в текст
Я ищу простой конвертер из mp3 в TXT. Я безуспешно пытался: julius, CMU Sphinx, ... За последние 4 часа я не нашел способа как их использовать (или правильно установить).
Я ищу что-то вроде:
$ converterapp -infile myspeech.mp3 -outfile myspeech.txt
Я также в порядке с приложением GUI, так как у меня есть только несколько файлов для конвертации и могу кликать.
Изменить: С помощью этого ответа приложение распознавания речи для преобразования MP3 в текст? Мне удалось заставить это работать, но это не производит выходной. Ну, на самом деле он выдает пару пустых строк (слова не обнаружены)...
3 ответа
pocketsphinx будет выполнять речь к тексту из существующего аудиофайла. В зависимости от исходного формата mp3 вам могут понадобиться две отдельные команды.
Сначала преобразуйте существующий аудиофайл в обязательный формат ввода:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Бегущий карманный сфинкс
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt
созданный файл myspeech.txt будет иметь то, что вы ищете.
Если вы новичок в Ubuntu, вам нужно установить вышеуказанные программы с помощью этой команды:
sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg
Whisper от OpenAI (ссылка на пресс-релиз ) — это относительно новая бесплатная альтернатива с открытым исходным кодом, с довольно хорошей производительностью на нескольких языках.
Есть несколько способов установить его, вы можете сделать это черезpip
, менеджер пакетов python:pip install -U openai-whisper
whisper audio.mp3 --model medium
Подойдет инструмент Mozilla SpeechDeep для преобразования речи в текст с открытым исходным кодом. Вам нужно будет установить приложение на рабочий стол Linux. Или вы можете попробовать https://transcribear.com инструмент преобразования речи в текст на основе браузера, который не требует установки, но вам потребуется подключение к Интернету для загрузки записи на сервер.