Проблемы с кодировкой htmldoc и аналогичных программ для htmldoc?
Я хочу конвертировать некоторые HTML-файлы в один PDF-файл.
я использовал
htmldoc
:htmldoc --webpage --header "/" --footer "" -f all.pdf 0010.html 0099.html
Выход
all.pdf
не преобразует некоторые вещи хорошо Например, математическое выражение⌈(1.02 n)⌉
(выделено красным цветом) не отображается должным образом, и был добавлен небольшой значок (выделен зеленым цветом). (Смотри картинку ниже.)Есть вариант
--charset
заhtmldoc
по адресу http://sunsite.ualberta.ca/Documentation/Misc/htmldoc-1.8.23/htmldoc.html. Я не нахожуutf-8
, Какой из них может хорошо отображать математические выражения?Как мне использовать
htmldoc
правильно конвертировать и объединять html-файлы в pdf-файл, чтобы максимально избежать вышеуказанных проблем?Я исключаю возможность возникновения проблем, связанных с HTML-файлами, печатая HTML-файл в PDF-файл в браузере Google Chrome. Выглядит нормально без вышеуказанных проблем. (Смотри картинку ниже.)
Но мне нравится решение командной строки, которое предпочтительно может работать как
htmldoc
структурировать HTML-файлы в PDF-файл с опцией--book
,Есть ли программы командной строки, похожие на
htmldoc
для меня, чтобы попытаться увидеть, могут ли они работать без вышеуказанных проблем?
Все мои файлы (HTML-файлы и созданные PDF-файлы) находятся в этом архиве tar:
0010_files 0010.html 0099.html 0099_files all.pdf 0010.pdf
где all.pdf
это единственный PDF-файл, сгенерированный htmldoc
из двух файлов HTML, и 0010.pdf
это PDF-файл, созданный при открытии и печати 0010.html
в Google Chrome.
Выход из htmldoc
и мой вручную добавил три поля контура:
Вывод на печать 0010.html
из Google Chrome:
1 ответ
Для html2doc поддержка UTF-8 отсутствует. Возможно в версии 1.9.
Вот еще один вариант:
устанавливать wkhtmltopdf
: Утилиты командной строки для преобразования HTML в PDF или изображения с помощью WebKit.
sudo apt-get install wkhtmltopdf
И установить poppler-utils
:
sudo apt-get install poppler-utils
Перейдите к вашим HTML-файлам:
cd <your_html_path>
и начать преобразование для отдельных файлов с:
wkhtmltopdf 0010.html 0010.pdf
wkhtmltopdf 0099.html 0099.pdf
или для всех файлов одновременно:
for f in *.html; do wkhtmltopdf "$f" "${f%%.*}.pdf"; done
Преобразуйте все отдельные PDF-файлы в один:
pdfunite *.pdf out.pdf
или как скрипт:
#!/bin/bash
# Convert all html files in the current folder into one pdf
#
for f in *.html; do wkhtmltopdf "$f" "${f%%.*}.pdf"; done
pdfunite *.pdf out.pdf
Больше информации и вариантов для wkhtmltopdf здесь.