Как искать текст в PDF-файлах с помощью docfetcher?

Question

Как искать текст в PDF-файлах с помощью docfetcher?

Я пытаюсь найти текст в файлах PDF, но результаты не точны! Например, у меня есть 2 PDF-файла со словом domiciiado. Когда я запускаю поиск по этому слову (domiciliado), docfetcher показывает только ОДИН файл PDF с этим словом. У меня вопрос, почему docfetcher не показывает другой файл PDF с этим словом? Есть ли разница между файлами PDF? В одном PDF у меня есть только текст, а другие PDF - это тексты и изображения, и это отсканированные страницы. В чем подвох?

PS: 2 файла PDF находятся в одном каталоге

0

pdf search text

Источник

vladimir pavloski 16 авг '16 в 20:26

1 ответ

Решение

Другие вопросы по тегам pdf search text

Anwar 16 авг '16 в 20:37 2016-08-16 20:37 · Accepted Answer · 2016-08-16 20:37

Есть ли какая-либо разница между файлами PDF, содержащими только текст, и файлами PDF с отсканированными страницами с текстом и изображениями?

Да, PDF-файлы с текстом и PDF-файлы со сканированными изображениями различаются. В pdf на основе изображений компьютер видит только изображения, и для распознавания текстов на этих изображениях требуется встроить в механизм PDF дополнительные возможности, такие как оптическое распознавание символов (OCR). PDF-файлы с текстом легче искать на компьютере, поскольку компьютер может распознавать текст напрямую.

Рекомендация

Один из способов поиска отсканированных PDF-файлов - сначала выполнить распознавание текста, чтобы извлечь текст, а затем выполнить поиск. Взгляните на этот вопрос, чтобы узнать о хорошем распознавании для Ubuntu. Какое самое лучшее и простое решение для распознавания?
Для поиска текстов в PDF-файлах только с текстом, я рекомендую инструмент командной строки pdfgrep. Есть и другие хорошие варианты тоже. Посмотрите на этот вопрос. Как мне найти файл PDF из командной строки?