Оптическое распознавание символов для LibreOffice
У меня есть бумажный документ. Есть еще страницы, содержащие таблицу с 3 столбцами (текущий номер, имя и оценка).
Я отсканировал его и получил 16 JPEG-документов. Каждый JPEG это отсканированная страница.
Теперь мне нужно OCR, чтобы преобразовать каждый JPEG в текст, чтобы вставить эту таблицу в документ Excel.
Я использую LibreOffice и Ubuntu 12.04.
2 ответа
Страница сканирования и распознавания в приложениях Ubuntu показывает нам несколько альтернатив, из которых я предлагаю вам использовать программу сканирования изображений XSane или простое сканирование (обычно предварительно установленное в 12.04 и, возможно, более ранних версиях) и / или gscan2pdf для сканирования ваших документов.,
Мой фаворит - gscan2pdf, который позволяет без проблем следить за процессом сканирования / распознавания в том же графическом интерфейсе.
Обратите внимание, что я пытаюсь запустить OCR для скриншота.
Вы просто сканируете или импортируете документы / изображения и переходите в меню "Инструменты", выбираете опцию OCR и вам будет предложено использовать механизм OCR, просто выберите тот, который даст вам наилучшие результаты, и нажмите "Запустить OCR".
Вы найдете OCR Output на вкладке с тем же названием, как показано на следующем скриншоте.
Обратите внимание, что даже с изображениями хорошего качества OCR может не интерпретировать определенные символы, что может привести к ошибочным словам или просто египетским иероглифам. Процесс распознавания большого набора документов может задержать на некоторое время.
Вот ссылка на подробное видео, которое объясняет процесс сканирования и распознавания в GScan2PDF: http://www.youtube.com/watch?v=UjjogfWfWsQ
Удачи!
Немного опоздал с ответом на этот вопрос.
Но для тех, кто посещает эту страницу в поисках решения для оптического распознавания текста для LibreOffice, я недавно разработал LibreOCR, модуль для оптического распознавания текста для LibreOffice.
Это часть проекта Indic-OCR.
Расширение теперь можно найти на веб-сайте LibreOffice Extensions.