Какое самое лучшее и простое решение для распознавания?
Я хотел бы отсканировать большое количество бумаг, которые у меня лежат, с наименьшими трудностями. Я хотел бы преобразовать их в изображения с помощью Simple Scan, а затем преобразовать их в текст с помощью OCR. Есть ли хорошее приложение для распознавания текста с графическим интерфейсом, которое даст мне хорошие результаты одним нажатием кнопки?
9 ответов
GOCR from - это программа оптического распознавания символов (OCR), которая преобразует отсканированные изображения текста обратно в текстовые файлы.
CLARA - еще один хороший графический вариант.
OCRAD from OCR может использоваться как автономное консольное приложение или как бэкэнд для других программ.
KOOKA from является приложением KDE, но работает нормально, кроме того, вам необходимо установить реальные программы OCR, такие как GOCR и OCRAD. После установки Kooka и программ OCR вы должны указать Kooka на место установки OCR, чтобы он мог преобразовать JPEG в текст.
OCRFeeder от - это система анализа документов и система оптического распознавания символов.
Tesseract from - это утилита командной строки, и она очень проста в использовании. Здесь вы можете установить языковой пакет tesseract-ocr-eng.
Посмотрите на эту страницу.
Замечания:
Чтобы запустить Tesseract Goto Terminal и введите следующее
tesseract imagefile.tif outputfile.txt
Tesseract может только читать файл TIFF - если у вас есть JPEG или PDF или что-то еще, вам придется конвертировать его. Кроме того, расширение файла должно быть.tif, а не.tiff, в противном случае выведите ошибки.
gscan2pdf
OCR на многостраничных PDF или отсканированных документах
Это, наверное, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет не только сканировать файлы, но и импортировать файлы и выполнять распознавание по ним. Установите gscan2pdf отсюда из Ubuntu Software Center или запустив эту команду в терминале:
sudo apt-get install gscan2pdf
- Запустите gscan2pdf
- Импортируйте PDF (Ctrl + O)
- Необязательно: Инструменты> Очистить
- Выберите "Инструменты"> "Сохранить OCR" (Ctrl + S).
Gscan2PDF может использовать настраиваемые механизмы распознавания, по умолчанию tesseract-ocr
Вы можете выбрать подходящий язык. В этом случае вам нужно будет установить tesseract-ocr-LANG
пакет, где LANG
это трехбуквенный код языка ISO 639-2. Сейчас у вас 108 языков на репо 16.04.
Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что они имеют графический интерфейс):
Тессеракт ( ReadMe, FAQ) (Python)
Также доступно для: Tesseract.NET, Tesseract iOS
Механизм оптического распознавания текста, разработанный в лабораториях HP в период с 1985 по 1995 год... а теперь и в Google. Тессеракт, вероятно, является наиболее точным из доступных механизмов OCR с открытым исходным кодом.
Использование:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR может использоваться с разными интерфейсами, что позволяет очень легко портировать на разные ОС и архитектуры. Он может открывать много разных форматов изображений, и его качество улучшается с каждым днем.
OCRopus™ ( FAQ) (написано на Python, NumPy и SciPy)
Система оптического распознавания текста, ориентированная на использование крупномасштабного машинного обучения для решения проблем в анализе документов, с возможностью анализа разметки с помощью разметки, распознавания с помощью разметки, статистического моделирования на естественном языке и многоязычных возможностей
Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макетов.
OCRopus - это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных и массовых преобразований документов. Мы ожидаем, что это также будет отличной системой распознавания текста для многих других приложений.
Tessnet2 (с открытым исходным кодом, OCR, Tesseract,.NET, DOTNET, C#, VB.NET, C++ / CLI)
Tesseract - это механизм распознавания текста с открытым исходным кодом на C++. Tessnet2 - это сборка.NET, предоставляющая очень простые методы для распознавания текста. Tessnet2 находится под лицензией Apache 2 (например, tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.
Несколько других: ABBYY CLI OCR для Linux, Asprise OCR
Для более полного списка, проверьте: Список программного обеспечения для оптического распознавания символов в Википедии
Смотрите также: wanghaisheng/awesome-ocr
- Кураторский список перспективных ресурсов OCR на GitHub.
Просто потому, что он работает очень хорошо и обязательно должен быть в списке:
gimageReader
Пример из скриншота:
Он находится в репозиториях (ответил 18.10, но использовал его целую вечность)
линукс-интеллигентный OCR-решение
отказ от ответственности - я тесно связан с разработкой этого решения с открытым исходным кодом
Лиос может конвертировать печать в текст с помощью сканера или камеры.
Он также может создавать текст из отсканированных изображений из других источников, таких как Pdf, изображение или папка, содержащая изображения.
Программе предоставляется полная доступность для слабовидящих.
Так как я тесно связан - мне бы очень понравилась обратная связь.
Лучший и самый простой выход - использовать pypdfocr
это не меняет PDF. pypdfocr - ссылка на модуль Python здесь.
pypdfocr your_document.pdf
В конце у вас будет еще один your_document_ocr.pdf
так, как вы хотите с поиском текста. Приложение не меняет качество изображения. Немного увеличивает размер файла, добавляя оверлейный текст.
Я думаю, что команда довольно проста, что она не нуждается в графическом интерфейсе. Возможно установка pypdfocr немного более многословна:
sudo apt install tesseract-ocr
pip install pypdfocr
Обновление 3 ноября 2018 года:
pypdfocr
больше не поддерживается с 2016 года, и я заметил некоторые проблемы из-за незанятости. ocrmypdf
( модуль выполняет знакомую работу и может использоваться следующим образом:
ocrmypdf in.pdf out.pdf
Установить:
pip install ocrmypdf
или же
apt install ocrmypdf
Я только что имел успех (до 16.04) с pdfocr.rb. Это указано в Ubuntu Wiki
Вот ppa, но хранилище для 16.04 не обновляется. Сценарий ruby выше от github, хотя все еще работает с 16.04.
Вы можете скачать его с Github. Вам понадобятся следующие установленные пакеты:
ruby tesseract-ocr pdftk exactimage
затем сделал pdfocr.rb исполняемым и запустил:
./pdfocf.rb -i source.pdf -o output.pdf
При желании вы можете использовать -l LANG
параметр. В этом случае вам нужно будет установить tesseract-ocr-LANG
пакет, где LANG
это трехбуквенный код языка ISO 639-2. Сейчас у вас 108 языков на репо 16.04.
gscan2pdf включает в себя 3 различных движка ocr. Вы можете отсканировать прямо в программу или импортировать PDF в программу. Я обнаружил, что движок Tesseract прекрасно работает и очень прост в использовании.
OCRFeeder уже упоминался как один из многих вариантов, но я подумал, что стоит упомянуть, почему он соответствует вашим требованиям:
- У него есть графический интерфейс (в отличие от некоторых приложений, упомянутых в некоторых других ответах).
- Его легко использовать (нажмите « Добавить изображение », затем нажмите « Распознать документ » ) .
Кроме того, он обладает и другими качествами, которые делают его отличным выбором:
- Это всего лишь внешний интерфейс, который может использовать один из нескольких серверных модулей (движков) со встроенной поддержкой CuneiForm, GOCR, Ocrad и Tesseract ( https://gitlab.gnome.org/GNOME/ocrfeeder/-/blob/master ). /src/ocrfeeder/util/configuration.py).
- Он упакован для Ubuntu (как
ocrfeeder
) - На момент публикации он все еще находится в активной разработке.
- Это часть проекта Gnome.