ПРОБЛЕМА: данные Unicode повреждены из программы ascii
Я использовал программу html2text для извлечения деванагари Unicode из файла HTML. Но это дает вывод как,
"À¤¶à¥à¤°à¤|à¥à¤§à¤§à¤¾à¤¨à¤¾à¤¨à¤¾à¤".
В Windows я бы исправил это, используя функцию преобразования в Unicode в Notepad++.
Что делать для Ubuntu?
Обновление: для целей тестирования я добавляю это:
эхо आचार्यपूज्यपादानामिष्टं | html2text
отображает текстуру à à¤à¤¾à¤°à¥à¤¯à¤ªà¥à¤à¥à¤¯à¤ªà¤¾à¤¦à¤¾à¤¨à¤¾à¤®àààà ·à¥à¤à¤
1 ответ
Решение
Вы можете попробовать использовать iconv
преобразовать ввод в правильную кодировку. К сожалению, я не могу дать вам более точную помощь, просто пример возможного использования:
html2text myfile.html | iconv -f iso-8859-1 -t utf-8 -c > good_output.txt
Конечно, вы должны заменить свои собственные кодировки.
Обновить:
В вашем случае рабочим решением является добавление -utf8
параметр для html2text
:
echo आचार्यपूज्यपादानामिष्टं | html2text -utf8