Как удалить все метаданные из файла (например, PDF)?
Из соображений конфиденциальности я хочу удалить все метаданные из документа (например, pdf, jpg, docx,…). Метаданные в целом - это дополнительная информация, хранящаяся как-то отдельно от фактического контента, например:
- Используемое программное обеспечение
- Используемая операционная система
- Время, а иногда и место
- Модель камеры, использованная передача… (фотографии см. В Exif)
- ...
"Как мне надежно убрать все метаданные из моего pdf, jpg, docx и т. Д.?"
2 ответа
МАТ
Взгляните на MAT (Metadata Anonymisation Toolkit)! Он исходит от TOR- людей и, как стандарт, от Tails- живой ОС, ориентированной на конфиденциальность и анонимность.
Так как это своего рода обертка вокруг exiftool
, он поддерживает больше форматов файлов , которыеexiftool
в одиночестве.
К настоящему времени они:
- Портативная сетевая графика (.png)
- JPEG (.jpg,.jpeg,…)
- TIFF (.tif, tiff,…)
- Открытые документы (.odt,.odx,.ods,…)
- Office OpenXml (.docx,.pptx,.xlsx,…)
- Формат файла переносимого документа (.pdf)
- Архивные ленты (.tar,.tar.bz2,…)
- MPEG AUdio (.mp3,.mp2,.mp1,…)
- Огг Ворбис (.ogg, …)
- Бесплатный аудио кодек без потерь (.flac)
- Торрент (.torrent)
Для получения более подробной информации, посмотрите на эту статью.
BEWARE
"Мат удаляет только стандартные метаданные из ваших файлов, но не делает:
- Анонимировать их содержание
- обрабатывать водяные знаки
- заниматься стеганографией
- любое чрезмерно настроенное поле / система метаданных (→jpg,zip)
Если вы действительно хотите быть анонимным, используйте форматы, которые не содержат метаданных, или лучше: используйте обычный текст.
И самое главное, будьте осторожны: каждый формат может содержать водяные знаки, даже простой текст (например, проект SNOW)!
Вы также можете распечатать копию документов, повторно отсканировать их и передать в МАТ; но будьте осторожны, чтобы надежно уничтожить распечатку и не оставлять следы в памяти вашего принтера / сканера ". (взято с сайта MAT)
JPEG
Комментарии и стандартные Exif-/IPTC-/XMP-теги удаляются. Могут быть проприетарные нестандартные теги (например, теги Canon Raw), которых MAT не трогает. Они могут быть включены, например, проприетарными инструментами преобразования RAW → JPEG.
ZIP
MAT не изменяет содержимое архива. Если инструмент создает дополнительные файлы, содержащие метаданные в архиве, они не будут затронуты.
Монтаж
Ubuntu 12.10 и выше
Начиная с Ubuntu 12.10 он входит в стандартную вселенную репозитория.
sudo apt установить коврик
Ниже Ubuntu 12.10
Для более старых версий Ubuntu его необходимо установить вручную. Зависимости:
- gir1.2-Poppler-0,18
- libimage-exiftool-perl (вселенная)
- python2.7
- питон-ги-каир
- питон-мутаген
- python-pdfrw (вселенная)
Установите их через:
sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw
Затем получите MAT здесь (например, mat-0.6.1.tar.xz). Если вы хотите проверить свою загрузку с помощью GnuPG, также получите файл.asc.
Чтобы проверить это, импортируйте ключ, указанный в нижней части страницы, например, через
gpg --search-keys 0x04D041E8171901CC
и проверьте с помощью:
gpg --verify mat-0.6.1.tar.xz.asc mat-0.6.1.tar.xz
На выходе должно быть что-то вроде
gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <julien.voisin@dustri.org>" [unknown]
gpg: aka "Julien (jvoisin) Voisin <jvoisin@riseup.net>" [unknown]
gpg: aka "Julien (jvoisin) Voisin <jvoisin@openmailbox.net>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg: There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6 2A74 04D0 41E8 1719 01CC
Извлечь и установить через
tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install
Пользователи Debian находят его в тестовом репо, пользователи Arch в AUR.
Если все прошло хорошо, у вас есть консольный инструмент mat
а также графический интерфейс mat-gui
,
Поскольку мне приходилось искать это несколько раз, вот решение, которое сработало для меня для pdf:
pdftk myfile.pdf cat 1-end output clean-myfile.pdf
Вот это тоже выглядит разумно (но я не проверял):
qpdf --pages myfile.pdf 1-z -- --empty clean-myfile.pdf
оба ответа взяты из https://gist.github.com/hubgit/6078384#gistcomment-2004771 .