Помощь по сканированию Canon CanoScan LiDE PDF-документов
Я только начал работать с Ubuntu в течение последних 10 дней с намерением прекратить использовать Windows навсегда. Пока это было потрясающе. Я заменил почти все свои приложения Microsoft на доступные приложения Ubuntu и некоторую помощь из Документов Google.
У меня проблема со сканером Canon CanoScan LiDE 110. Когда я использую сканер в Windows 7 и сохраняю отсканированные страницы книги в формате PDF, я могу открыть отсканированную страницу PDF и скопировать текст с нее непосредственно, чтобы вставить ее в Документы Google или любой документ LibreOffice. Я попытался сделать то же самое в Ubuntu с помощью приложения Simple Scan. Я отсканировал страницу как текст в Simple Scan и сохранил ее в формате PDF. Однако в Ubuntu, когда я открываю отсканированную страницу PDF, она открывается OK, но я не могу скопировать тексты.
Это очень важно для моего рабочего процесса, так как я врач, и мне нужно изучить много книг.
Буду очень признателен, если вы поможете мне с этим.
1 ответ
Тессеракт OCR
В 1995 году Tesseract был одним из 3 самых популярных оптических распознавателей. Разработка ведется Google с 2006 года. Он может сканировать изображения, конвертировать их в текст и распознавать 40 языков.
Чтобы установить Тессеракт
sudo apt-get install tesseract-ocr
клинопись
Cuneiform - это еще одна система распознавания текста. Она распознает 23 языка, включая английский, немецкий, русский, французский и т. Д.
Чтобы установить Cuneiform
sudo apt-get install cuneiform
Другие приложения, которые могут быть полезны
- Ocradjvu
- Ocrad
- GOCR
- ocrfeeder
- pdf студия 8 серия