Поиск текстовой строки в закомментированных файлах PDF
Для поиска текстовой строки не только в теле файла PDF, но и в комментариях я установил Acrobat Reader на Ubuntu 18.04 LTS. Его функция поиска работает правильно, но мне интересно, есть ли другой способ выполнить эту задачу (pdfgrep?)
1 ответ
1. Строки в комментариях внутри исходного кода PDF
Для строк в комментариях внутри исходного кода PDF можно смело предположить, что они не закодированы и отображаются в виде простого текста ASCII или UTF-8.
Следовательно, следующая команда должна работать:
strings my.pdf | grep -i 'searchstring'
Я должен добавить, что комментарии в исходном коде PDF будут помечены %
-символ в начале каждой строки комментария.
Кроме того, ни Adobe Acrobat, ни Adobe Reader не будут отображать результаты поиска строк в комментариях при их поиске.
2. Строки внутри текстового содержимого PDF
Вы не можете так легко найти текст в PDF. Вы можете сделать следующее, чтобы найти определенную строку:
pdftotext -layout my.pdf - | grep -i 'searchstring'
Есть довольно много других методов командной строки (вы сами упомянули pdfgrep
), хоть. принимать pdfgrep
:
pdfgrep -n -i 'searchstring' my.pdf
(Вот, -n
печатает номер страницы с соответствием для строки, -i
делает поиск регистронезависимым.)