Конвертировать речь (аудиофайлы в формате mp3) в текст

Я ищу простой конвертер из mp3 в TXT. Я безуспешно пытался: julius, CMU Sphinx, ... За последние 4 часа я не нашел способа как их использовать (или правильно установить).

Я ищу что-то вроде:

$ converterapp -infile myspeech.mp3 -outfile myspeech.txt

Я также в порядке с приложением GUI, так как у меня есть только несколько файлов для конвертации и могу кликать.

Изменить: С помощью этого ответа приложение распознавания речи для преобразования MP3 в текст? Мне удалось заставить это работать, но это не производит выходной. Ну, на самом деле он выдает пару пустых строк (слова не обнаружены)...

3 ответа

pocketsphinx будет выполнять речь к тексту из существующего аудиофайла. В зависимости от исходного формата mp3 вам могут понадобиться две отдельные команды.

Сначала преобразуйте существующий аудиофайл в обязательный формат ввода:

    ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Бегущий карманный сфинкс

    pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt

созданный файл myspeech.txt будет иметь то, что вы ищете.


Если вы новичок в Ubuntu, вам нужно установить вышеуказанные программы с помощью этой команды:

    sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg

Whisper от OpenAI (ссылка на пресс-релиз ) — это относительно новая бесплатная альтернатива с открытым исходным кодом, с довольно хорошей производительностью на нескольких языках.

Есть несколько способов установить его, вы можете сделать это черезpip, менеджер пакетов python:pip install -U openai-whisper

      whisper audio.mp3 --model medium

Подойдет инструмент Mozilla SpeechDeep для преобразования речи в текст с открытым исходным кодом. Вам нужно будет установить приложение на рабочий стол Linux. Или вы можете попробовать https://transcribear.com инструмент преобразования речи в текст на основе браузера, который не требует установки, но вам потребуется подключение к Интернету для загрузки записи на сервер.

Другие вопросы по тегам