Перенумеровать страницы PDF

Я хочу отредактировать метаданные отсканированного PDF-файла, чтобы назначить индивидуальные номера страниц различным страницам. Например, какие сейчас страницы 1-3 я могу назвать i, ii и iii, а какие страницы 4-10 я хочу назвать 1-7. Я не хочу менять фактический порядок страниц.

Есть ли А) Способ сделать это вообще с помощью бесплатных инструментов; и B) способ сделать это "в пакетном режиме" (так, без необходимости перенумерации каждой страницы вручную).

9 ответов

Решение

Здесь решение на основе LaTeX. Он использует pdfpages пакет для включения отсканированного PDF (здесь называется scan.pdf). Нужные метки страницы PDF можно установить с помощью hyperref пакет с pdfpagelabels опция включена. Он использует нормальный \thepage макрос как метка, которая может быть определена для строчных римских чисел. Затем счетчик страниц сбрасывается и возвращается к нормальным числам.

\documentclass[a4paper]{article}% or use 'letterpaper'
\usepackage{pdfpages}
\usepackage[pdfpagelabels]{hyperref}
\begin{document}
% Set lower case roman numbers (\Roman would be upper case):
\renewcommand{\thepage}{\roman{page}}
\includepdf[pages=1-3]{scan.pdf}
% Back to normal (arabic) numbers:
\renewcommand{\thepage}{\arabic{page}}
% Reset page counter to 1:
\setcounter{page}{1}
\includepdf[pages=4-]{scan.pdf}
\end{document}

Поместите приведенный выше код в файл (например, scan_mod.tex) и скомпилируйте его с pdflatex:

# pdflatex scan_mod

Это будет производить scan_mod.pdf, Однако любые специальные аннотации вкл. гиперссылки исчезнут. Это не должно быть проблемой с отсканированными PDF-файлами.

Если вам это нужно чаще, вы можете написать скрипт, который принимает число страниц с римскими номерами и имена файлов в качестве аргументов и создает временный файл с приведенным выше кодом, где имя и числа являются переменными, который затем компилируется.

Вы можете сделать это с помощью текстового редактора.

Как говорится в ответе, откройте файл PDF с помощью текстового редактора, выполните поиск /Catalog запись, а затем добавить запись с именем /PageLabels как это:

/PageLabels << /Nums [
0 << /P (cover) >> % labels 1st page with the string "cover"
1 << /S /r >> % numbers pages 2-6 in small roman numerals
6 << /S /D >> % numbers pages 7-x in decimal arabic numerals
]
>>

Обратите внимание, что индексы страниц (физические номера страниц) начинаются с 0,

Конечно, вы можете сделать это автоматически, используя скриптовые языки.

Стандарты PDF - Ярлыки страниц имеют подробную спецификацию.

jPDF Tweak - это графическая утилита с открытым исходным кодом, которая предлагает нумерацию страниц (правильный термин "маркировка страницы") и многие другие новички в расширенных функциях редактирования PDF. Он работает на Ubuntu и других операционных системах.

Страница документации содержит пошаговые инструкции.

Есть небольшой скрипт на python, который может сделать эту работу: https://github.com/lovasoa/pagelabels-py

В вашем случае позвоните:

./addpagelabels.py --delete file.pdf
./addpagelabels.py --startpage 1 --type 'roman lowercase' file.pdf
./addpagelabels.py --startpage 4 --type arabic file.pdf

Существует инструмент под названием PDF Mod, который является бесплатным инструментом для изменения порядка страниц PDF.

Его можно установить из Ubuntu Software Center в Ubuntu 10.10 и выше.

Чтобы установить в Ubuntu 9.10 или 10.04:

Для установки Добавить PPA ppa:pdfmod-team/ppa к вашим программным источникам ( Вот как это сделать) и установите pdfmod из центра программного обеспечения

Адаптировано с: http://www.webupd8.org/2011/03/edit-pdf-documents-in-linux-with-pdf.html

Удачи:D

Просто нашел указатель, который можно было бы использовать ghostscript для этого здесь: pdftk - добавление и редактирование закладок в pdf - Unix и Linux - Stack Exchange # 18600; это относится к ссылкам:

Однако вышеизложенное касается закладок, а не логической нумерации страниц. Получается из pdfmarkReference.pdf, нужная "команда"/Label' (или же '/PAGELABEL') - и далее он ссылается на PDFReference.pdf главу 8.3.1 "Ярлыки страниц". К сожалению, эта глава не обязательно объясняет, как pdfmarks можно использовать с ярлыками страниц - но этот пост делает:

В / pAGELABEL pdfmark нет ключа /Page, поэтому можно установить метку только для "текущей" страницы (и, как следствие, только для одной страницы за раз). Поскольку вы вызываете его в самом начале, ожидается, что он установит метку для 1-й страницы и только для нее.

Несколько / PAGELABEL для одной и той же страницы: ссылка на pdfmark говорит, что последняя вступает в силу, поэтому результат вашей первой командной строки в порядке. Обратите внимание, что ключ /Page игнорируется.

Как установить метки страницы из PostScript? Я могу думать о 2 методах:

(A) 100% документированный способ:

Выпустите / PAGELABEL как часть каждой страницы.

(B) Менее документированный способ: ...

gswin32c -sDEVICE=pdfwrite -sOutputFile=50pages.pdf -dNOPAUSE

GS>[/_objdef {pl} /type /dict /OBJ pdfmark
GS>[{pl} <</Nums [0 <</P (Page ) /S /r /St 10>> 2 <<>>]>> /PUT pdfmark
GS>[{Catalog} <</PageLabels {pl}>> /PUT pdfmark
GS>50 { showpage } repeat
GS>quit

... и далее в этой теме:

Как сделать эту работу; Поскольку исходный файл является файлом PDF, вы можете запускать каждую страницу из файла в отдельности. Таким образом, вы можете установить pagmark PAGELABEL для страницы 1, запустить страницу 1 из исходного файла, установить PAGELABEL для страницы 2, запустить страницу 2 из исходного файла и так далее.

Поскольку метка (как и SaGS) применяется к текущей странице, это должно правильно установить метки для каждой страницы в выходном файле PDF. (предостережение: я на самом деле не пробовал это)

РЕДАКТИРОВАТЬ: просто чтобы показать это - если вы сохранили это как pdfmarks файл:

[ /Label (-1) /PAGELABEL pdfmark
showpage
[ /Label (0) /PAGELABEL pdfmark
showpage
[ /Label (1) /PAGELABEL pdfmark
showpage

... и вы звоните:

gs -q -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -sOutputFile=outfile.pdf infile.pdf pdfmarks

... тогда вы получите три пустых страницы в конце infile.pdfс метками -1, 0 и 1:)

Ну, может быть, это поможет когда-нибудь стать проще gs скрипт для перенумерации страниц:)
Ура!

EDIT2: Понял, я думаю - использовать то же самое gs команда, как указано выше - и ниже содержимое pdfmarks скрипт, который перенумеровывает infile.pdf, поэтому он начинается с -1, 0, 1 ... Это в основном модифицированный пример из ссылки в PDF (см. комментарии для более подробной информации):

% Type name (Optional) The type of PDF object that this dictionary describes; if present, must be PageLabel for a page label dictionary.
% S name (Optional) The numbering style to be used for the numeric portion of each page label:
%       D Decimal arabic numerals
%       R Uppercase roman numerals
%       r Lowercase roman numerals
%       A Uppercase letters (A to Z for the first 26 pages, AA to ZZ for the next 26, and so on)
%       a Lowercase letters (a to z for the first 26 pages, aa to zz for the next 26, and so on)
% P text string (Optional) The label prefix for page labels in this range.
% St integer (Optional) The value of the numeric portion for the first page label in the range. Subsequent pages will be numbered sequentially from this value, which must be greater than or equal to 1. Default value: 1.

% renumber first 25 pages - push each by 10, and add prefix:
% [/_objdef {pl} /type /dict /OBJ pdfmark
% [{pl} <</Nums [0 <</P (Page ) /S /D /St 10>> 25 <<>>]>> /PUT pdfmark
% [{Catalog} <</PageLabels {pl}>> /PUT pdfmark

[/_objdef {pl} /type /dict /OBJ pdfmark
[{pl} <</Nums [ 0 << /P (-1) >>         % just label -1 (no style) for pg 0;
                1 << /P (0) >>          % just label  0 (no style) for pg 1;
                2 << /S /D /St 1 >>     % decimal style, start from 1, for pg2 and on.
                ]>> /PUT pdfmark
[{Catalog} <</PageLabels {pl}>> /PUT pdfmark

Openoffice/Libreoffice может справиться с расширением pdf-import и макросом разбиения на страницы.

Не идеальное решение, но оно работает для меня (кроме использования PDF Mod - который я настоятельно рекомендую).

Попробуйте pyPdf, библиотеку python для работы с PDF-документами. Некоторое, но не очень, программирование было бы необходимо.

Вы также можете взглянуть на PDFtk, хотя я не проверял, поддерживает ли он изменение номера страницы, связанной с отдельными страницами. Оба доступны в виде пакетов в Ubuntu.

Существует еще одно приложение, которое называется PDFEdit - его размещают в Source Forge. Страница проекта Source Forge - Однако это не помогает, потому что это не та функциональность, которая вам требуется

Редактирование текста в PDFEdit

Другие вопросы по тегам