При выделении мышью из PDF появляются странные символы

Я пытаюсь выделить текст мышью из этого словацкого документа: https://fphil.uniba.sk/fileadmin/fif/katedry_pracoviska/sas/Publikacie/Foneticka_prirucka.pdf .

В браузере (Chromium) и Okular у меня в выделении странные символы.

Когда я извлекаю текст в Okular из этого документа, у меня тоже есть нераспознанные символы, но по-другому.

РЕДАКТИРОВАТЬ: я нашел эту библиотеку/инструмент: https://pypi.org/project/multilingual-pdf2text/ , которая, вероятно, мне поможет, но я не знаю, как ее использовать.

Можно ли извлечь текст из этого документа с правильно распознанными символами?

command-line pdf iconv

Источник

user545 26 июн '23 в 03:25

0 ответов

Другие вопросы по тегам command-line pdf iconv