ПРОБЛЕМА: данные Unicode повреждены из программы ascii

Я использовал программу html2text для извлечения деванагари Unicode из файла HTML. Но это дает вывод как,

"À¤¶à¥à¤°à¤|à¥à¤§à¤§à¤¾à¤¨à¤¾à¤¨à¤¾à¤".

В Windows я бы исправил это, используя функцию преобразования в Unicode в Notepad++.

Что делать для Ubuntu?

Обновление: для целей тестирования я добавляю это:

эхо आचार्यपूज्यपादानामिष्टं | html2text

отображает текстуру à à¤à¤¾à¤°à¥à¤¯à¤ªà¥à¤à¥à¤¯à¤ªà¤¾à¤¦à¤¾à¤¨à¤¾à¤®àààà ·à¥à¤à¤

1 ответ

Решение

Вы можете попробовать использовать iconv преобразовать ввод в правильную кодировку. К сожалению, я не могу дать вам более точную помощь, просто пример возможного использования:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

Конечно, вы должны заменить свои собственные кодировки.

Обновить:

В вашем случае рабочим решением является добавление -utf8 параметр для html2text:

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8
Другие вопросы по тегам