Пакетное преобразование тессеракта

Я пытаюсь распознать книгу, используя tesseract, но я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как бы я этого достиг

Я попробовал tesseract *.tif *, который дает мне этот read_params_file: параметр не найден: II*

3 ответа

Чтобы избежать перезаписи выходного файла для каждой новой страницы, я сделал:

for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done 

Работало нормально.

(Я нашел это решение здесь.)

Вы можете использовать VietOCR, который использует Tesseract и поддерживает пакетное / массовое распознавание текста.

Я попробовал это, и это работает

for i in *.tif ; do tesseract $i outtext;  done;

Убедитесь, что когда вы находитесь в терминале, вы меняете каталог на расположение всех файлов TIF.

Я хотел преобразовать каннада (индийский язык) в PDF-файл с возможностью поиска

Я изменил это для i в * tif; делать b =basename "$i" .tif; tesseract "$ i" "$ b" hocr; сделанный

КАК НИЖЕ

для i в * tif; делать b =basename "$i" .tif; tesseract -l кан "$i" "$b" pdf; сделанный

Он работал хорошо, вся папка была преобразована из изображения в PDF-файл с возможностью поиска. Tnakyou

Другие вопросы по тегам