Оптическое распознавание символов для LibreOffice

У меня есть бумажный документ. Есть еще страницы, содержащие таблицу с 3 столбцами (текущий номер, имя и оценка).

Я отсканировал его и получил 16 JPEG-документов. Каждый JPEG это отсканированная страница.

Теперь мне нужно OCR, чтобы преобразовать каждый JPEG в текст, чтобы вставить эту таблицу в документ Excel.

Я использую LibreOffice и Ubuntu 12.04.

2 ответа

Страница сканирования и распознавания в приложениях Ubuntu показывает нам несколько альтернатив, из которых я предлагаю вам использовать программу сканирования изображений XSane или простое сканирование (обычно предварительно установленное в 12.04 и, возможно, более ранних версиях) и / или gscan2pdf для сканирования ваших документов.,

Мой фаворит - gscan2pdf, который позволяет без проблем следить за процессом сканирования / распознавания в том же графическом интерфейсе.

введите описание изображения здесь

Обратите внимание, что я пытаюсь запустить OCR для скриншота.

Вы просто сканируете или импортируете документы / изображения и переходите в меню "Инструменты", выбираете опцию OCR и вам будет предложено использовать механизм OCR, просто выберите тот, который даст вам наилучшие результаты, и нажмите "Запустить OCR".

введите описание изображения здесь

Вы найдете OCR Output на вкладке с тем же названием, как показано на следующем скриншоте.

введите описание изображения здесь

Обратите внимание, что даже с изображениями хорошего качества OCR может не интерпретировать определенные символы, что может привести к ошибочным словам или просто египетским иероглифам. Процесс распознавания большого набора документов может задержать на некоторое время.

Вот ссылка на подробное видео, которое объясняет процесс сканирования и распознавания в GScan2PDF: http://www.youtube.com/watch?v=UjjogfWfWsQ

Удачи!

Немного опоздал с ответом на этот вопрос.

Но для тех, кто посещает эту страницу в поисках решения для оптического распознавания текста для LibreOffice, я недавно разработал LibreOCR, модуль для оптического распознавания текста для LibreOffice.

Это часть проекта Indic-OCR.

Расширение теперь можно найти на веб-сайте LibreOffice Extensions.

Другие вопросы по тегам