Проблемы с кодировкой htmldoc и аналогичных программ для htmldoc?

Я хочу конвертировать некоторые HTML-файлы в один PDF-файл.

  1. я использовал htmldoc:

    htmldoc --webpage --header "/" --footer "" -f all.pdf   0010.html 0099.html
    

    Выход all.pdf не преобразует некоторые вещи хорошо Например, математическое выражение ⌈(1.02 n)⌉ (выделено красным цветом) не отображается должным образом, и был добавлен небольшой значок (выделен зеленым цветом). (Смотри картинку ниже.)

    Есть вариант --charset за htmldoc по адресу http://sunsite.ualberta.ca/Documentation/Misc/htmldoc-1.8.23/htmldoc.html. Я не нахожу utf-8, Какой из них может хорошо отображать математические выражения?

    Как мне использовать htmldoc правильно конвертировать и объединять html-файлы в pdf-файл, чтобы максимально избежать вышеуказанных проблем?

  2. Я исключаю возможность возникновения проблем, связанных с HTML-файлами, печатая HTML-файл в PDF-файл в браузере Google Chrome. Выглядит нормально без вышеуказанных проблем. (Смотри картинку ниже.)

    Но мне нравится решение командной строки, которое предпочтительно может работать как htmldoc структурировать HTML-файлы в PDF-файл с опцией --book,

    Есть ли программы командной строки, похожие на htmldoc для меня, чтобы попытаться увидеть, могут ли они работать без вышеуказанных проблем?

Все мои файлы (HTML-файлы и созданные PDF-файлы) находятся в этом архиве tar:

0010_files 0010.html 0099.html 0099_files  all.pdf 0010.pdf    

где all.pdf это единственный PDF-файл, сгенерированный htmldoc из двух файлов HTML, и 0010.pdf это PDF-файл, созданный при открытии и печати 0010.html в Google Chrome.

Выход из htmldoc и мой вручную добавил три поля контура:

введите описание здесь

Вывод на печать 0010.html из Google Chrome:

введите описание здесь

1 ответ

Решение

Для html2doc поддержка UTF-8 отсутствует. Возможно в версии 1.9.

Вот еще один вариант:

устанавливать wkhtmltopdf: Утилиты командной строки для преобразования HTML в PDF или изображения с помощью WebKit.

sudo apt-get install wkhtmltopdf

И установить poppler-utils:

sudo apt-get install poppler-utils

Перейдите к вашим HTML-файлам:

cd <your_html_path>

и начать преобразование для отдельных файлов с:

wkhtmltopdf 0010.html 0010.pdf
wkhtmltopdf 0099.html 0099.pdf

или для всех файлов одновременно:

for f in *.html; do wkhtmltopdf "$f" "${f%%.*}.pdf"; done

Преобразуйте все отдельные PDF-файлы в один:

pdfunite *.pdf out.pdf

или как скрипт:

#!/bin/bash
# Convert all html files in the current folder into one pdf
#
for f in *.html; do wkhtmltopdf "$f" "${f%%.*}.pdf"; done
pdfunite *.pdf out.pdf

Больше информации и вариантов для wkhtmltopdf здесь.

Другие вопросы по тегам