Как удалить все метаданные из файла (например, PDF)?

Из соображений конфиденциальности я хочу удалить все метаданные из документа (например, pdf, jpg, docx,…). Метаданные в целом - это дополнительная информация, хранящаяся как-то отдельно от фактического контента, например:

  • Используемое программное обеспечение
  • Используемая операционная система
  • Время, а иногда и место
  • Модель камеры, использованная передача… (фотографии см. В Exif)
  • ...

"Как мне надежно убрать все метаданные из моего pdf, jpg, docx и т. Д.?"

2 ответа

МАТ

Взгляните на MAT (Metadata Anonymisation Toolkit)! Он исходит от TOR- людей и, как стандарт, от Tails- живой ОС, ориентированной на конфиденциальность и анонимность.

Так как это своего рода обертка вокруг exiftool, он поддерживает больше форматов файлов , которыеexiftoolв одиночестве.

К настоящему времени они:

  • Портативная сетевая графика (.png)
  • JPEG (.jpg,.jpeg,…)
  • TIFF (.tif, tiff,…)
  • Открытые документы (.odt,.odx,.ods,…)
  • Office OpenXml (.docx,.pptx,.xlsx,…)
  • Формат файла переносимого документа (.pdf)
  • Архивные ленты (.tar,.tar.bz2,…)
  • MPEG AUdio (.mp3,.mp2,.mp1,…)
  • Огг Ворбис (.ogg, …)
  • Бесплатный аудио кодек без потерь (.flac)
  • Торрент (.torrent)

Для получения более подробной информации, посмотрите на эту статью.

BEWARE

"Мат удаляет только стандартные метаданные из ваших файлов, но не делает:

  • Анонимировать их содержание
  • обрабатывать водяные знаки
  • заниматься стеганографией
  • любое чрезмерно настроенное поле / система метаданных (→jpg,zip)

Если вы действительно хотите быть анонимным, используйте форматы, которые не содержат метаданных, или лучше: используйте обычный текст.

И самое главное, будьте осторожны: каждый формат может содержать водяные знаки, даже простой текст (например, проект SNOW)!

Вы также можете распечатать копию документов, повторно отсканировать их и передать в МАТ; но будьте осторожны, чтобы надежно уничтожить распечатку и не оставлять следы в памяти вашего принтера / сканера ". (взято с сайта MAT)

JPEG

Комментарии и стандартные Exif-/IPTC-/XMP-теги удаляются. Могут быть проприетарные нестандартные теги (например, теги Canon Raw), которых MAT не трогает. Они могут быть включены, например, проприетарными инструментами преобразования RAW → JPEG.

ZIP

MAT не изменяет содержимое архива. Если инструмент создает дополнительные файлы, содержащие метаданные в архиве, они не будут затронуты.

Монтаж

Ubuntu 12.10 и выше

Начиная с Ubuntu 12.10 он входит в стандартную вселенную репозитория.

sudo apt установить коврик

Ниже Ubuntu 12.10

Для более старых версий Ubuntu его необходимо установить вручную. Зависимости:

  • gir1.2-Poppler-0,18
  • libimage-exiftool-perl (вселенная)
  • python2.7
  • питон-ги-каир
  • питон-мутаген
  • python-pdfrw (вселенная)

Установите их через:

sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw

Затем получите MAT здесь (например, mat-0.6.1.tar.xz). Если вы хотите проверить свою загрузку с помощью GnuPG, также получите файл.asc.

Чтобы проверить это, импортируйте ключ, указанный в нижней части страницы, например, через

gpg --search-keys 0x04D041E8171901CC

и проверьте с помощью:

gpg --verify mat-0.6.1.tar.xz.asc  mat-0.6.1.tar.xz

На выходе должно быть что-то вроде

gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <julien.voisin@dustri.org>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@riseup.net>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <jvoisin@openmailbox.net>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg:          There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6  2A74 04D0 41E8 1719 01CC

Извлечь и установить через

tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install

Пользователи Debian находят его в тестовом репо, пользователи Arch в AUR.

Если все прошло хорошо, у вас есть консольный инструмент mat а также графический интерфейс mat-gui,

Поскольку мне приходилось искать это несколько раз, вот решение, которое сработало для меня для pdf:

      pdftk myfile.pdf cat 1-end output clean-myfile.pdf

Вот это тоже выглядит разумно (но я не проверял):

      qpdf --pages myfile.pdf 1-z -- --empty clean-myfile.pdf

оба ответа взяты из https://gist.github.com/hubgit/6078384#gistcomment-2004771 .

Другие вопросы по тегам