Как выполнить массовое преобразование html-содержимого eml-файлов в doc (Word) файлы

Я получил более 5000 файлов eml с содержимым html (объявленным как text/html utf-8 в заголовках, но...), и мне нужно преобразовать их в единственный формат, поддерживаемый нашим сторонним переводчиком - Microsoft Word .doc

Я могу сделать это вручную, открыв его в Thunderbird и скопировав его в openoffice, но это требует много ручного труда.

Моим последним попыткой было извлечь html-контент с помощью команды "munpack -t", но это каким-то образом нарушило кодирование. Даже если я добавлю мета-заголовок в html-файл, определяющий кодировку utf-8, он не работает. После более внимательного изучения этих файлов eml я уверен, что это не utf-8, althroug определен как, и thunderbird может их прочитать хорошо.

К сожалению, я не могу предоставить эти файлы, так как они содержат "конфиденциальные данные компании". Я надеюсь, что кто-то сможет распознать проблему или порекомендовать новый инструмент.

редактировать: образец файла (с удалением конфиденциальных данных) https://pastebin.com/qm1rBh7t

1 ответ

Никогда не делал этого, так что понятия не имею. быстрый поиск с найденной поисковой системой

https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix

который содержит

- начать цитату

"Один из вариантов - libreoffice/openoffice в режиме без заголовка (сначала убедитесь, что все остальные экземпляры libreoffice закрыты):

libreoffice --headless --convert-to txt: text mydocument.doc

Для получения дополнительной информации см., Например, эту ссылку: http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/

Список фильтров libreoffice см. По http://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters

Поскольку синтаксис командной строки openoffice слишком сложен, существует удобная оболочка, которая может упростить процесс: unoconv. "

- конец цитаты

Я экспериментировал с этим для одного файла, а затем просто вставлял for цикл, чтобы сделать их все. это задумано как идея, надеясь, что это подтолкнет вас туда, где, я думаю, может работать (или, по крайней мере, привести к исправлению)

Другие вопросы по тегам