Как найти файл PDF из командной строки?

Я проверяю ссылки на бумагу и хочу найти позиции в теле, на которые ссылается какая-то бумага (в списке ссылок). Есть ли PDF-редактор, который поддерживает поиск через bash и извлекает контекст позиции? Я пытался конвертировать PDF в текст, но не дал хорошего результата.

4 ответа

Решение

Просто для добавления к ответу выше, в частности, вы можете использовать инструмент командной строки из xpdf-utils с именем pdftotext, а затем выполнить поиск в текстовом документе, созданном этим инструментом, с помощью grep.

Это может выглядеть примерно так:

pdftotext document.pdf - | grep -C5 -n -i "search term"

В руководстве есть больше информации. Единственный недостаток pdftotext заключается в том, что вы не можете использовать для преобразования несколько файлов одновременно. Эту проблему можно решить с помощью небольшого скрипта bash:

for f in pdf_directory; do echo $f; pdftotext $f - | grep -i "search_term"; done

Если у вас возникают проблемы при создании текстового документа из PDF-файла из-за, например, несовместимого PDF-файла, то это еще одна проблема.

Я думаю, что редакторы PDF не содержат командных строк, потому что они графические. Если вы хотите использовать bash (или, может быть, zsh!), То вам, возможно, придется использовать оболочку терминала.

Удачи!

Poppler-Utils

Примечание: xpdf-utils - это переходный пакет для poppler-utils.

Вы можете использовать poppler-utils. poppler-utils - это набор инструментов для файлов Portable Document Format (PDF).

Чтобы установить его, вы можете использовать Ubuntu Software Center или нажав ниже:

Установите poppler-utils

pdfgrep

pdfgrep может рекурсивно искать строку или шаблон в файлах PDF в деревьях каталогов, подсчитывать совпадения или печатать некоторый контекст для каждого совпадения. Например, для рекурсивного поиска keyword в /some directory, без учета регистра:

pdfgrep -Ri keyword /some/directory

Pdfgrep - это инструмент для поиска текста в файлах PDF. Он работает аналогично "grep".

Особенности:

  • поиск по регулярным выражениям.
  • поддержка некоторых важных опций grep, включая: + вывод имени файла. + вывод номера страницы. + дополнительная нечувствительность к регистру. + считать
    вхождения.
  • и самая важная особенность: вывод цвета!

Установить pdfgrep

1 Источник: Каталог приложений Ubuntu

Для поиска регулярного выражения в нескольких файлах PDF с помощью pdfgrep:

find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;

где путь это местоположение для ваших файлов PDF.

Причина, по которой pdftotext не увенчался успехом, может заключаться в том, что PDF-файлы являются отсканированными изображениями, и вам нужно их распознать, я написал быстрый способ поиска по всем pdfс чего не может быть grepЭд и ОРС им.

Я заметил, если pdf Файл не имеет шрифта, он обычно не доступен для поиска. Зная это, мы можем использовать pdffonts,

Первые 2 строки pdffonts являются заголовком таблицы, поэтому, когда файл для поиска имеет более двух строк, зная это, мы можем создать:

gedit check_pdf_searchable.sh

вставить это

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi

затем сделайте его исполняемым

chmod +x check_pdf_searchable.sh

затем перечислите все не доступные для поиска PDF-файлы в каталоге:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

или в каталоге и его подкаталогах:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Вам также необходимо установить:

sudo apt install ocrmypdf

rga - это оболочка для ripgrep, которая является гораздо более быстрым вариантом для поиска PDF-файлов в командной строке.

Другие вопросы по тегам