Читать кодировку символов с помощью sed

Question

Читать кодировку символов с помощью sed

Я пытаюсь написать bash-скрипт для преобразования всех специальных символов в файле (é, ü, ã и т. Д.) В латексный формат (\'e, \"u, \~a и т. Д.). Обычно это действительно легко сделать с sed, но у меня возникают проблемы с распознаванием специальных символов. Как я могу сказать команде прочитать файл, используя iso или кодировку UTF-8?

Если это невозможно, есть ли способ заставить sed понимать специальные символы?

1

sed charset

Источник

Malabarba 18 апр '11 в 05:52

1 ответ

Решение

Другие вопросы по тегам sed charset

enzotib 18 апр '11 в 12:53 2011-04-18 12:53 · Accepted Answer · 2011-04-18 12:53

Это может быть так просто, как

iconv --from-code $enc input-file |
    sed 's/é/\\'\''e/;s/ü/\\"e/;s/ã/\\~a/' |
    iconv -to-code $enc >converted-input-file

где переменная enc содержит кодировку входного файла, одну из строк, полученных из iconv -l,