Как выполнить массовое преобразование html-содержимого eml-файлов в doc (Word) файлы
Я получил более 5000 файлов eml с содержимым html (объявленным как text/html utf-8 в заголовках, но...), и мне нужно преобразовать их в единственный формат, поддерживаемый нашим сторонним переводчиком - Microsoft Word .doc
Я могу сделать это вручную, открыв его в Thunderbird и скопировав его в openoffice, но это требует много ручного труда.
Моим последним попыткой было извлечь html-контент с помощью команды "munpack -t", но это каким-то образом нарушило кодирование. Даже если я добавлю мета-заголовок в html-файл, определяющий кодировку utf-8, он не работает. После более внимательного изучения этих файлов eml я уверен, что это не utf-8, althroug определен как, и thunderbird может их прочитать хорошо.
К сожалению, я не могу предоставить эти файлы, так как они содержат "конфиденциальные данные компании". Я надеюсь, что кто-то сможет распознать проблему или порекомендовать новый инструмент.
редактировать: образец файла (с удалением конфиденциальных данных) https://pastebin.com/qm1rBh7t
1 ответ
Никогда не делал этого, так что понятия не имею. быстрый поиск с найденной поисковой системой
https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix
который содержит
- начать цитату
"Один из вариантов - libreoffice/openoffice в режиме без заголовка (сначала убедитесь, что все остальные экземпляры libreoffice закрыты):
libreoffice --headless --convert-to txt: text mydocument.doc
Для получения дополнительной информации см., Например, эту ссылку: http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/
Список фильтров libreoffice см. По http://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters
Поскольку синтаксис командной строки openoffice слишком сложен, существует удобная оболочка, которая может упростить процесс: unoconv. "
- конец цитаты
Я экспериментировал с этим для одного файла, а затем просто вставлял for
цикл, чтобы сделать их все. это задумано как идея, надеясь, что это подтолкнет вас туда, где, я думаю, может работать (или, по крайней мере, привести к исправлению)