Почему OCR-Text распознается с пробелами после каждого символа?

Я пытаюсь отсканировать все свои документы и выбросить эти противные бумаги. Чтобы упростить этот процесс, я недавно купил сканер Brother ADS-2100e. Я думал, что этот сканер может создать OCR-PDF на USB-Stick, но я ошибаюсь. PDF-файлы на USB не доступны для поиска. Поэтому я пытаюсь добавить OCR впоследствии с pdfsandwich. Это сработало, но мой PDF-Viewer (Evince, Ubuntu 16.04.2) не смог найти ни одного слова. Каждое слово имеет пробелы после каждого символа. Я выбрал правильный пакет tesseract-language-pack, но проблема пробелов не исчезла.

Пример: слово "Гутен" можно найти только с "Гутен" и так далее.

Я пытался найти этот единственный PDF-файл с PDF-XChange-Viewer в Windows 10, и все работает нормально. Никаких пробелов после каждого символа.

Я пробовал другие программы просмотра PDF и инструменты поиска в Ubuntu (recoll, pdfgrep, qpdfview, Okular). Каждый инструмент показывает мне только те пробелы. Что я могу сделать?

В большинстве случаев мне нужны только некоторые слова из pdf-файла, чтобы найти его с повторным вызовом, но с пробелами я не могу найти ни одного из них.

Я не думаю, что тессеракт это моя проблема. Похоже, что у PDFViewers и Search-Tools возникла проблема с чтением OCR-текста.

Эта проблема уже обсуждалась здесь:

https://bugs.ghostscript.com/show_bug.cgi?id=696116

Я мог бы исправить мою проблему с помощью небольшого обходного пути:

Я не создаю PDF-файлы на USB-Stick, но JPEG-файлы. Эти JPEGS могут быть легко преобразованы в PDF-файлы с возможностью поиска с помощью:

tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf

Теперь я получил свои PDF-файлы с возможностью поиска, но моя первая проблема еще не решена.

0 ответов

Другие вопросы по тегам