Конвертировать речь (аудиофайлы в формате mp3) в текст

Question

Конвертировать речь (аудиофайлы в формате mp3) в текст

Я ищу простой конвертер из mp3 в TXT. Я безуспешно пытался: julius, CMU Sphinx, ... За последние 4 часа я не нашел способа как их использовать (или правильно установить).

Я ищу что-то вроде:

$ converterapp -infile myspeech.mp3 -outfile myspeech.txt

Я также в порядке с приложением GUI, так как у меня есть только несколько файлов для конвертации и могу кликать.

Изменить: С помощью этого ответа приложение распознавания речи для преобразования MP3 в текст? Мне удалось заставить это работать, но это не производит выходной. Ну, на самом деле он выдает пару пустых строк (слова не обнаружены)...

15

software-recommendation speech-recognition

Источник

Samo 15 окт '16 в 10:50

3 ответа

Другие вопросы по тегам software-recommendation speech-recognition

64pi0r 30 апр '18 в 18:27 2018-04-30 18:27 · Answer 1 · 2018-04-30 18:27

pocketsphinx будет выполнять речь к тексту из существующего аудиофайла. В зависимости от исходного формата mp3 вам могут понадобиться две отдельные команды.

Сначала преобразуйте существующий аудиофайл в обязательный формат ввода:

    ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Бегущий карманный сфинкс

    pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt

созданный файл myspeech.txt будет иметь то, что вы ищете.

Если вы новичок в Ubuntu, вам нужно установить вышеуказанные программы с помощью этой команды:

    sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg

MayeulC 03 май '23 в 08:48 2023-05-03 08:48 · Answer 2 · 2023-05-03 08:48

Whisper от OpenAI (ссылка на пресс-релиз ) — это относительно новая бесплатная альтернатива с открытым исходным кодом, с довольно хорошей производительностью на нескольких языках.

Есть несколько способов установить его, вы можете сделать это черезpip, менеджер пакетов python:pip install -U openai-whisper

      whisper audio.mp3 --model medium

05 янв '20 в 16:34 2020-01-05 16:34 · Answer 3 · 2020-01-05 16:34

Подойдет инструмент Mozilla SpeechDeep для преобразования речи в текст с открытым исходным кодом. Вам нужно будет установить приложение на рабочий стол Linux. Или вы можете попробовать https://transcribear.com инструмент преобразования речи в текст на основе браузера, который не требует установки, но вам потребуется подключение к Интернету для загрузки записи на сервер.