Помощь по сканированию Canon CanoScan LiDE PDF-документов

Я только начал работать с Ubuntu в течение последних 10 дней с намерением прекратить использовать Windows навсегда. Пока это было потрясающе. Я заменил почти все свои приложения Microsoft на доступные приложения Ubuntu и некоторую помощь из Документов Google.

У меня проблема со сканером Canon CanoScan LiDE 110. Когда я использую сканер в Windows 7 и сохраняю отсканированные страницы книги в формате PDF, я могу открыть отсканированную страницу PDF и скопировать текст с нее непосредственно, чтобы вставить ее в Документы Google или любой документ LibreOffice. Я попытался сделать то же самое в Ubuntu с помощью приложения Simple Scan. Я отсканировал страницу как текст в Simple Scan и сохранил ее в формате PDF. Однако в Ubuntu, когда я открываю отсканированную страницу PDF, она открывается OK, но я не могу скопировать тексты.

Это очень важно для моего рабочего процесса, так как я врач, и мне нужно изучить много книг.

Буду очень признателен, если вы поможете мне с этим.

1 ответ

Решение

Тессеракт OCR

В 1995 году Tesseract был одним из 3 самых популярных оптических распознавателей. Разработка ведется Google с 2006 года. Он может сканировать изображения, конвертировать их в текст и распознавать 40 языков.

Чтобы установить Тессеракт

sudo apt-get install tesseract-ocr

клинопись

Cuneiform - это еще одна система распознавания текста. Она распознает 23 языка, включая английский, немецкий, русский, французский и т. Д.

Чтобы установить Cuneiform

sudo apt-get install cuneiform

Другие приложения, которые могут быть полезны

  • Ocradjvu
  • Ocrad
  • GOCR
  • ocrfeeder
  • pdf студия 8 серия
Другие вопросы по тегам