Поиск текстовой строки в закомментированных файлах PDF

Для поиска текстовой строки не только в теле файла PDF, но и в комментариях я установил Acrobat Reader на Ubuntu 18.04 LTS. Его функция поиска работает правильно, но мне интересно, есть ли другой способ выполнить эту задачу (pdfgrep?)

1 ответ

Решение

1. Строки в комментариях внутри исходного кода PDF

Для строк в комментариях внутри исходного кода PDF можно смело предположить, что они не закодированы и отображаются в виде простого текста ASCII или UTF-8.

Следовательно, следующая команда должна работать:

strings my.pdf | grep -i 'searchstring'

Я должен добавить, что комментарии в исходном коде PDF будут помечены %-символ в начале каждой строки комментария.

Кроме того, ни Adobe Acrobat, ни Adobe Reader не будут отображать результаты поиска строк в комментариях при их поиске.

2. Строки внутри текстового содержимого PDF

Вы не можете так легко найти текст в PDF. Вы можете сделать следующее, чтобы найти определенную строку:

pdftotext -layout my.pdf - | grep -i 'searchstring'

Есть довольно много других методов командной строки (вы сами упомянули pdfgrep), хоть. принимать pdfgrep:

pdfgrep -n -i 'searchstring' my.pdf

(Вот, -n печатает номер страницы с соответствием для строки, -i делает поиск регистронезависимым.)

Другие вопросы по тегам