Улучшите качество звука (не голоса) Pico2Wave.

Я использую Ubuntu 12.04.

Я хочу широко использовать возможности преобразования текста в речь в Linux для создания аудиофайлов из текста.

Я пробовал Festival, но найти хорошие голоса и установить их слишком сложно, поэтому я использую их с голосами по умолчанию.

Я также попробовал Pico2Wave.

Фестивальное преобразование текста в речь является полностью роботизированным и неестественным и не подходит для длительного прослушивания. На заднем плане он "гудит", но, тем не менее, вы можете четко слышать слова, но опять же, роботы и плохое качество речи.

Образец фестиваля здесь

Pico2Wave очень естественна и сравнима с текстом в речь Apple с точки зрения дикции и человеческой речи, но качество самого звука ужасное. Звучит так, как будто это было записано в очень пустой комнате с большим количеством эха. Звучит "душно", грязно, пухло, со слишком большим количеством басов. Так сильно, что колонки гремят, и иногда их очень трудно понять, если вы не используете наушники. Звук совсем не хриплый. Я также подозреваю, что звук "клипы", но я не аудио эксперт.

Pico2Wave образец здесь

Мой вопрос:

Как я могу улучшить качество звука сгенерированного аудио файла? Я не аудио эксперт, поэтому я не знаю, с чем мне нужно играть (усиление? Басы? Снижать шум? До какой степени? И т. Д.). Обратите внимание, что я не прошу рекомендовать инструменты, но буду объяснил, что именно не так с этим звуком и с какими качествами я должен возиться в своем приложении для редактирования / улучшения звука.

ПРИМЕЧАНИЕ. Пример текста - это первый абзац "Последнего из могикан":

Особенностью колониальных войн в Северной Америке было то, что труды и опасности дикой природы должны были встретиться до того, как встретятся неблагоприятные хозяева. Широкая и, по-видимому, непроницаемая граница лесов разорвала владения враждебных провинций Франции и Англии. Выносливый колонист и обученный европеец, сражавшиеся на его стороне, часто тратили месяцы на борьбу с порогами ручьев или на изрезанные горные перевалы в поисках возможности проявить свое мужество в более боевом конфликте., Но, подражая терпению и самоотречению опытных местных воинов, они научились преодолевать все трудности; и может показаться, что со временем не было ни такой темной нигде ни леса, ни какого-нибудь тайного места, столь прекрасного, что оно могло бы потребовать освобождения от вторжений тех, кто обещал свою кровь, чтобы насытить их или отстоять холодная и эгоистичная политика далеких монархов Европы.

2 ответа

Я просто сталкиваюсь с той же проблемой, и в данный момент я заканчиваю с чем-то вроде

pico2wave -l $LANGUAGE -w $WAV "$*" && play -qV0 $WAV treble 24 gain -l 6

который звучит гораздо более "свежим".

Глядя на форму волны в Audacity, пиковый уровень очень высок - хотя форма волны не выглядит обрезанной, это, вероятно, вызывает отсечение при воспроизведении - звучит противно при воспроизведении с VLC. Используя эффект "Усиление" Audacity, я установил пиковую амплитуду на -3.0, которая воспроизводит красиво и чисто - я попробовал это, экспортировал обратно в wav, а затем он воспроизводит хорошо и чисто в VLC. Без сомнения, это можно сделать в командной строке или в сценарии с использованием SoX или аналогичного.

Другие вопросы по тегам