Abbyy прекрасный читатель, как приложение для Ubuntu 13.04

У меня много изображений, и я хочу отсканировать эти изображения и получить вывод в виде файла MS Word, который можно редактировать позже. Для Windows у меня есть Abbyy, отличный читатель. Но я не хочу возвращаться в Windows. Скажите, пожалуйста, есть ли приложение, которое может сделать то же самое для меня. Пожалуйста, помогите мне в этом.

2 ответа

Вы можете использовать Abbyy OCR.

CLI ABBYY FineReader Engine для Linux - это готовый инструмент CLI, основанный на передовых технологиях оптического распознавания символов (OCR) ABBYY. Инструмент автоматизирует OCR и преобразование документов в системах Linux.

Для получения дополнительной информации и загрузки, посетите их веб-сайт.

Источник: Ocr4Linux

Прежде всего, вот еще несколько инструментов OCR, кроме Abbyy, которые имеют SDK, и вы можете использовать их в Linux. Но обратите внимание, что не все из них поддерживают вывод MS Word:

  • Тессеракт - только вывод текста
  • Ocrad - только вывод текста
  • GOCR - только текстовый вывод
  • CuneiForm - вывод RTF
  • OmniPage - Google Документы и вывод PDF

Вот статья (с 2007 года, но, вероятно, все еще актуальная), сравнивающая первые три двигателя с точностью и скоростью: http://www.mathstat.dal.ca/~selinger/ocr-test/

Кстати, все движки, включая Abbyy, лучше всего подходят для неструктурированного текста - иными словами, изображений, которые не следуют регулярной структуре. Если обрабатываемые вами "изображения" имеют стандартную компоновку, например формы, заполненные клиентами (где поля всегда находятся в одном и том же месте), различные карточки (например, визитные карточки, удостоверения личности) и т. Д., Существуют специализированные решения. который может обнаруживать и распознавать только определенные текстовые поля, "очищать" изображение от "шума" и выводить текст структурированным образом (например, Имя = Джон Смит, Идентификационный номер = 123456).

Если ваши изображения являются "шаблонами", и вам нужен OCR, который может выводить структурированный текст, на самом деле Linux-решений очень мало (насколько я знаю). Вот два решения, с которыми я знаком:

  • CSSN OCR ( http://www.card-reader.com/). Специализируется на таких карточных документах, как удостоверения личности, водительские права, медицинские карточки, банковские чеки, кредитные карточки и т. Д. Работает на Linux с использованием WINE.
  • ARH ( http://www.arhungary.hu/). Умеет читать проездные документы, паспорта, визы и удостоверения личности.

HTH, Дана

Другие вопросы по тегам