Проблема с использованием wget для загрузки всего сайта

Как сказано в wget справочная страница:

чтобы загрузить одну страницу и все ее реквизиты (даже если они существуют на отдельных веб-сайтах) и убедиться, что партия отображается правильно локально, этот автор любит использовать несколько опций в дополнение к -p:

wget -E -H -k -K -p http://mysite.com/directory

Я понимаю, если я хочу полностью загрузить MySite, я должен добавить -r аргумент. Но используя оба -r а также -H options приводит к загрузке всего веб-сайта, доступного по http://mysite.com/directory. Любая идея?

2 ответа

Если вы хотите использовать wgetВы можете использовать настройку зеркала для создания автономной копии веб-сайта, хотя некоторые веб-сайты могут предотвратить это с помощью настроек robots.txt, которые останавливают автоматическое паутинга. У меня всегда было несколько проблем с wget (см. мое другое предложение ниже), но следующая команда действительно работает для многих сайтов. Однако следует помнить, что добавление -H Переключатель позволяет ему получить доступ ко всем ссылкам, которые находятся на других сайтах, а также сохранить их. Этот командный переключатель, очевидно, может быть удален, если он не требуется.

 wget --wait 1 -x -H -mk http://site.to.mirror/

Команда для wait позволяет некоторые промежутки между wget's просит, чтобы сайт не перегружался, а -x Команда switch указывает, что структура каталогов сайта должна быть точно отражена в папке в вашей домашней папке. -m Переключатель, очевидно, обозначает режим зеркала, который позволяет wget скачивать рекурсивно через сайт; и -k Параметр switch означает, что после загрузки будут указаны те файлы, которые находятся в вашей папке зеркала в вашей домашней папке, а не те, которые находятся на самом сайте.

После man wget, возможно, лучший список и подробное объяснение wget Команды здесь.

Если wget не удается, и вы не можете получить столько, сколько хотите, я должен попробовать программу командной строки httrack или его веб-интерфейс, webhttrack, которые доступны в репозиториях. Есть много вариантов для этой программы, но лучше скачать целые сайты или их части, чем wget, Webhttrack дает вам мастера для загрузки сайта (он открывается в вашем браузере), как показано на скриншоте ниже.

HTTrack

Прошло много времени с тех пор, как я использовал wget для этого:

Я считаю, что я имел успех с - m флаг.

wget -mk http://site.com/directory

Это, вероятно, не получит все - но это приблизит вас.

(Ссылка): эта страница

Другие вопросы по тегам