Abbyy прекрасный читатель, как приложение для Ubuntu 13.04
У меня много изображений, и я хочу отсканировать эти изображения и получить вывод в виде файла MS Word, который можно редактировать позже. Для Windows у меня есть Abbyy, отличный читатель. Но я не хочу возвращаться в Windows. Скажите, пожалуйста, есть ли приложение, которое может сделать то же самое для меня. Пожалуйста, помогите мне в этом.
2 ответа
Вы можете использовать Abbyy OCR.
CLI ABBYY FineReader Engine для Linux - это готовый инструмент CLI, основанный на передовых технологиях оптического распознавания символов (OCR) ABBYY. Инструмент автоматизирует OCR и преобразование документов в системах Linux.
Для получения дополнительной информации и загрузки, посетите их веб-сайт.
Источник: Ocr4Linux
Прежде всего, вот еще несколько инструментов OCR, кроме Abbyy, которые имеют SDK, и вы можете использовать их в Linux. Но обратите внимание, что не все из них поддерживают вывод MS Word:
- Тессеракт - только вывод текста
- Ocrad - только вывод текста
- GOCR - только текстовый вывод
- CuneiForm - вывод RTF
- OmniPage - Google Документы и вывод PDF
Вот статья (с 2007 года, но, вероятно, все еще актуальная), сравнивающая первые три двигателя с точностью и скоростью: http://www.mathstat.dal.ca/~selinger/ocr-test/
Кстати, все движки, включая Abbyy, лучше всего подходят для неструктурированного текста - иными словами, изображений, которые не следуют регулярной структуре. Если обрабатываемые вами "изображения" имеют стандартную компоновку, например формы, заполненные клиентами (где поля всегда находятся в одном и том же месте), различные карточки (например, визитные карточки, удостоверения личности) и т. Д., Существуют специализированные решения. который может обнаруживать и распознавать только определенные текстовые поля, "очищать" изображение от "шума" и выводить текст структурированным образом (например, Имя = Джон Смит, Идентификационный номер = 123456).
Если ваши изображения являются "шаблонами", и вам нужен OCR, который может выводить структурированный текст, на самом деле Linux-решений очень мало (насколько я знаю). Вот два решения, с которыми я знаком:
- CSSN OCR ( http://www.card-reader.com/). Специализируется на таких карточных документах, как удостоверения личности, водительские права, медицинские карточки, банковские чеки, кредитные карточки и т. Д. Работает на Linux с использованием WINE.
- ARH ( http://www.arhungary.hu/). Умеет читать проездные документы, паспорта, визы и удостоверения личности.
HTH, Дана