Преобразование DJVU в PDF
Я хочу преобразовать документ DJVU в документ PDF, отделив и сохранив текстовый слой и изображения, а также сохранив структуру из DJVU. Как я могу сделать это в Ubuntu?
(Затем я буду использовать Caliber для конвертации в ePub/Mobi, поэтому, если бы для всего этого процесса был плагин Caliber, это было бы идеально для меня!)
Примечание 1: печать из Evince, экспорт из DJview или что-либо, использующее пакет ddjvu, не являются адекватными решениями, поскольку они отбрасывают текстовый слой, сохраняя только изображения.
Примечание 2: Использование DJVULibre, кажется, только извлекает текстовый слой, а изображения не извлекаются. Аналогично, копирование текста "вручную" приводит к потере как структуры документа, так и изображений.
6 ответов
Способ 1
Просто используйте DJView и экспортируйте как PDF
- Goto Synaptic Package Manager
- Установить DJview4
- Запустите DJview (Приложения - Графика - DJView4)
- Откройте документ.djvu
- : Меню - Экспортировать как: PDF
Способ 2
Откройте файл djvu в evince
Выберите печать ----> печать в файл
измените.ps на.pdf и нажмите кнопку печати
Способ 3
- Goto Synaptic Package Manager
устанавливать
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Перейти к терминалу и написать
sudo apt-get install libtiff-tools
Перейдите в каталог, где находится файл djvu. Нажмите правую кнопку мыши. Перейти к "Открыть в терминале" вариант. Нажмите здесь. Терминал откроется.
В этом терминале напишите
ddjvu -format=tiff file_name.djvu file_name.tiff tiff2pdf -j -o file_name.pdf file_name.tiff
Способ 4
Существует также онлайн конвертер DjVu в PDF конвертер
Вот один из способов, который потребует некоторых не очень распространенных инструментов:
Мы можем использовать djvu2hocr
команда (от ocrodjvu
пакет), чтобы извлечь скрытый текстовый слой из файла DjVu (он не выполняет оптическое распознавание или тому подобное, он просто извлекает текстовый слой с геометрией), то есть:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
вмешательство исправляет имена классов в выходном hOCR (который является простым HTML-файлом)
Теперь мы извлекаем страницу DjVu в формат TIFF с помощью:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
так что мы заканчиваем этим файлом в нашей рабочей папке:
sample.djvu
pg10.html
pg10.tif
Это где pdfbeads
вступает в игру, и мы просто выполняем:
pdfbeads -o pg10.pdf
затем эта изящная программа позаботится обо всем, что находится внутри этой папки (файлы HTML и TIFF с одинаковым базовым именем), и создаст выходной файл PDF с некоторыми побочными продуктами:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
который идентичен входному файлу DjVu и имеет текстовый слой внутри:
Сводка комментариев:
В длинных комментариях ниже обсуждается представление небольших изображений со страницы документа DjVu в виде отдельных объектов, что нелегко сделать возможным, поскольку страница документа DjVu сама по себе представляет собой одно изображение с необязательным текстовым слоем, без "информации" о небольших изображениях в качестве отдельных объектов. Если документ DjVu имеет цветные изображения, то они обычно помещаются на фоновый слой; в этом случае пользователь может воспользоваться такими инструментами, как ddjvu
(извлечь только фоновый слой) и imagemagick
(автообрезка) для вывода только изображений вместо всего холста, но это не может быть автоматизировано для создания вывода PDF
Другой более разумный, но более медленный подход - использование обычных инструментов OCR GUI. gscan2pdf
(> 1.0) предлагается в качестве возможного кандидата на ПК с Linux
Существует djvu2pdf, но он использует ghostscript, так что это может быть другой вариант печати. Я все же предлагаю вам взглянуть на это, на всякий случай, если это будет более умным, чем я считаю.
Его нет в репозиториях, но вы можете скачать дебет с сайта создателей: http://0x2a.at/s/projects/djvu2pdf
** Вставьте обязательное уведомление о загрузке / установке вещей вне репозиториев здесь **
Используя DJVULibre, можно извлечь текстовый слой через terminal
команда:
djvutxt myfile.djvu > myfile-ocr.txt
или же djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(оба делают то же самое, и были найдены здесь)
Форматирование требует определенных усилий (так как многие символы не преобразуются должным образом), а изображения не восстанавливаются.
Я сделал сценарий ответа @zetah.
Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
Самый простой способ: использовать gscan2pdf для импорта djvu, затем распознать его с помощью tesseract и, наконец, сохранить его в формате pdf. Текст OCR в pdf может немного отличаться от оригинального djvu, и преобразование может занять некоторое время, но этот метод не составляет труда и работает.
http://www.djvu-pdf.com/ - Используя этот сайт, вы можете конвертировать DJVU в PDF.