Как искать текст в PDF-файлах с помощью docfetcher?
Я пытаюсь найти текст в файлах PDF, но результаты не точны! Например, у меня есть 2 PDF-файла со словом domiciiado. Когда я запускаю поиск по этому слову (domiciliado), docfetcher показывает только ОДИН файл PDF с этим словом. У меня вопрос, почему docfetcher не показывает другой файл PDF с этим словом? Есть ли разница между файлами PDF? В одном PDF у меня есть только текст, а другие PDF - это тексты и изображения, и это отсканированные страницы. В чем подвох?
PS: 2 файла PDF находятся в одном каталоге
1 ответ
Есть ли какая-либо разница между файлами PDF, содержащими только текст, и файлами PDF с отсканированными страницами с текстом и изображениями?
Да, PDF-файлы с текстом и PDF-файлы со сканированными изображениями различаются. В pdf на основе изображений компьютер видит только изображения, и для распознавания текстов на этих изображениях требуется встроить в механизм PDF дополнительные возможности, такие как оптическое распознавание символов (OCR). PDF-файлы с текстом легче искать на компьютере, поскольку компьютер может распознавать текст напрямую.
Рекомендация
Один из способов поиска отсканированных PDF-файлов - сначала выполнить распознавание текста, чтобы извлечь текст, а затем выполнить поиск. Взгляните на этот вопрос, чтобы узнать о хорошем распознавании для Ubuntu. Какое самое лучшее и простое решение для распознавания?
Для поиска текстов в PDF-файлах только с текстом, я рекомендую инструмент командной строки pdfgrep. Есть и другие хорошие варианты тоже. Посмотрите на этот вопрос. Как мне найти файл PDF из командной строки?