Как искать текст в PDF-файлах с помощью docfetcher?

Я пытаюсь найти текст в файлах PDF, но результаты не точны! Например, у меня есть 2 PDF-файла со словом domiciiado. Когда я запускаю поиск по этому слову (domiciliado), docfetcher показывает только ОДИН файл PDF с этим словом. У меня вопрос, почему docfetcher не показывает другой файл PDF с этим словом? Есть ли разница между файлами PDF? В одном PDF у меня есть только текст, а другие PDF - это тексты и изображения, и это отсканированные страницы. В чем подвох?

PS: 2 файла PDF находятся в одном каталоге

1 ответ

Решение

Есть ли какая-либо разница между файлами PDF, содержащими только текст, и файлами PDF с отсканированными страницами с текстом и изображениями?

Да, PDF-файлы с текстом и PDF-файлы со сканированными изображениями различаются. В pdf на основе изображений компьютер видит только изображения, и для распознавания текстов на этих изображениях требуется встроить в механизм PDF дополнительные возможности, такие как оптическое распознавание символов (OCR). PDF-файлы с текстом легче искать на компьютере, поскольку компьютер может распознавать текст напрямую.

Рекомендация

Другие вопросы по тегам