Пакетное преобразование тессеракта
Я пытаюсь распознать книгу, используя tesseract, но я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как бы я этого достиг
Я попробовал tesseract *.tif *, который дает мне этот read_params_file: параметр не найден: II*
3 ответа
Чтобы избежать перезаписи выходного файла для каждой новой страницы, я сделал:
for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done
Работало нормально.
(Я нашел это решение здесь.)
Вы можете использовать VietOCR, который использует Tesseract и поддерживает пакетное / массовое распознавание текста.
Я попробовал это, и это работает
for i in *.tif ; do tesseract $i outtext; done;
Убедитесь, что когда вы находитесь в терминале, вы меняете каталог на расположение всех файлов TIF.
Я хотел преобразовать каннада (индийский язык) в PDF-файл с возможностью поиска
Я изменил это для i в * tif; делать b =basename "$i" .tif
; tesseract "$ i" "$ b" hocr; сделанный
КАК НИЖЕ
для i в * tif; делать b =basename "$i" .tif
; tesseract -l кан "$i" "$b" pdf; сделанный
Он работал хорошо, вся папка была преобразована из изображения в PDF-файл с возможностью поиска. Tnakyou