Проблема с использованием wget для загрузки всего сайта
Как сказано в wget
справочная страница:
чтобы загрузить одну страницу и все ее реквизиты (даже если они существуют на отдельных веб-сайтах) и убедиться, что партия отображается правильно локально, этот автор любит использовать несколько опций в дополнение к -p:
wget -E -H -k -K -p http://mysite.com/directory
Я понимаю, если я хочу полностью загрузить MySite, я должен добавить -r
аргумент. Но используя оба -r
а также -H
options приводит к загрузке всего веб-сайта, доступного по http://mysite.com/directory. Любая идея?
2 ответа
Если вы хотите использовать wget
Вы можете использовать настройку зеркала для создания автономной копии веб-сайта, хотя некоторые веб-сайты могут предотвратить это с помощью настроек robots.txt, которые останавливают автоматическое паутинга. У меня всегда было несколько проблем с wget
(см. мое другое предложение ниже), но следующая команда действительно работает для многих сайтов. Однако следует помнить, что добавление -H
Переключатель позволяет ему получить доступ ко всем ссылкам, которые находятся на других сайтах, а также сохранить их. Этот командный переключатель, очевидно, может быть удален, если он не требуется.
wget --wait 1 -x -H -mk http://site.to.mirror/
Команда для wait
позволяет некоторые промежутки между wget's
просит, чтобы сайт не перегружался, а -x
Команда switch указывает, что структура каталогов сайта должна быть точно отражена в папке в вашей домашней папке. -m
Переключатель, очевидно, обозначает режим зеркала, который позволяет wget
скачивать рекурсивно через сайт; и -k
Параметр switch означает, что после загрузки будут указаны те файлы, которые находятся в вашей папке зеркала в вашей домашней папке, а не те, которые находятся на самом сайте.
После man wget
, возможно, лучший список и подробное объяснение wget
Команды здесь.
Если wget
не удается, и вы не можете получить столько, сколько хотите, я должен попробовать программу командной строки httrack
или его веб-интерфейс, webhttrack
, которые доступны в репозиториях. Есть много вариантов для этой программы, но лучше скачать целые сайты или их части, чем wget
, Webhttrack
дает вам мастера для загрузки сайта (он открывается в вашем браузере), как показано на скриншоте ниже.
Прошло много времени с тех пор, как я использовал wget
для этого:
Я считаю, что я имел успех с - m
флаг.
wget -mk http://site.com/directory
Это, вероятно, не получит все - но это приблизит вас.
(Ссылка): эта страница