Почему OCR-Text распознается с пробелами после каждого символа?
Я пытаюсь отсканировать все свои документы и выбросить эти противные бумаги. Чтобы упростить этот процесс, я недавно купил сканер Brother ADS-2100e. Я думал, что этот сканер может создать OCR-PDF на USB-Stick, но я ошибаюсь. PDF-файлы на USB не доступны для поиска. Поэтому я пытаюсь добавить OCR впоследствии с pdfsandwich. Это сработало, но мой PDF-Viewer (Evince, Ubuntu 16.04.2) не смог найти ни одного слова. Каждое слово имеет пробелы после каждого символа. Я выбрал правильный пакет tesseract-language-pack, но проблема пробелов не исчезла.
Пример: слово "Гутен" можно найти только с "Гутен" и так далее.
Я пытался найти этот единственный PDF-файл с PDF-XChange-Viewer в Windows 10, и все работает нормально. Никаких пробелов после каждого символа.
Я пробовал другие программы просмотра PDF и инструменты поиска в Ubuntu (recoll, pdfgrep, qpdfview, Okular). Каждый инструмент показывает мне только те пробелы. Что я могу сделать?
В большинстве случаев мне нужны только некоторые слова из pdf-файла, чтобы найти его с повторным вызовом, но с пробелами я не могу найти ни одного из них.
Я не думаю, что тессеракт это моя проблема. Похоже, что у PDFViewers и Search-Tools возникла проблема с чтением OCR-текста.
Эта проблема уже обсуждалась здесь:
https://bugs.ghostscript.com/show_bug.cgi?id=696116
Я мог бы исправить мою проблему с помощью небольшого обходного пути:
Я не создаю PDF-файлы на USB-Stick, но JPEG-файлы. Эти JPEGS могут быть легко преобразованы в PDF-файлы с возможностью поиска с помощью:
tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf
Теперь я получил свои PDF-файлы с возможностью поиска, но моя первая проблема еще не решена.