Пакетное преобразование тессеракта

Question

Пакетное преобразование тессеракта

Я пытаюсь распознать книгу, используя tesseract, но я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как бы я этого достиг

Я попробовал tesseract *.tif *, который дает мне этот read_params_file: параметр не найден: II*

0

batch ocr

Источник

user140393 25 мар '13 в 12:17

3 ответа

Другие вопросы по тегам batch ocr

karkaf 19 фев '14 в 14:48 2014-02-19 14:48 · Answer 1 · 2014-02-19 14:48

Чтобы избежать перезаписи выходного файла для каждой новой страницы, я сделал:

for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done

Работало нормально.

(Я нашел это решение здесь.)

nguyenq 06 апр '13 в 19:16 2013-04-06 19:16 · Answer 2 · 2013-04-06 19:16

Вы можете использовать VietOCR, который использует Tesseract и поддерживает пакетное / массовое распознавание текста.

0

Источник

nguyenq 06 апр '13 в 19:16

Meer Borg 25 мар '13 в 12:47 2013-03-25 12:47 · Answer 3 · 2013-03-25 12:47

Я попробовал это, и это работает

for i in *.tif ; do tesseract $i outtext;  done;

Убедитесь, что когда вы находитесь в терминале, вы меняете каталог на расположение всех файлов TIF.

0

Источник

Meer Borg 25 мар '13 в 12:47

19 окт '20 в 12:30 2020-10-19 12:30 · Answer 4 · 2020-10-19 12:30

Я хотел преобразовать каннада (индийский язык) в PDF-файл с возможностью поиска

Я изменил это для i в * tif; делать b =basename "$i" .tif; tesseract "$ i" "$ b" hocr; сделанный

КАК НИЖЕ

для i в * tif; делать b =basename "$i" .tif; tesseract -l кан "$i" "$b" pdf; сделанный

Он работал хорошо, вся папка была преобразована из изображения в PDF-файл с возможностью поиска. Tnakyou