Как скачать с помощью wget или curl?
С простым wget -c
или же curl -O
нет загрузки (тайм-аут!), но в браузере я вижу обычную страницу,
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
Итак, как скачать его с помощью основных команд sdandard на терминале?
Время загрузки и содержимое (большой HTML-файл) ДОЛЖНЫ быть такими же, как в моем браузере.
PS: этот URL является типичным случаем, когда ответ на "необычный запрос агента" не совпадает с запросом популярного браузера... Но страница является официальным текстом закона, поэтому требуется доступ без барьеров, необходимо без трения: есть RFC (или рекомендация W3C, или аналогичная), предлагающая или классифицирующая "HTTP-доступ без трения"?
1 ответ
Я пробовал со многими альтернативами... "Минимальный дополнительный заголовок" (требуется сервером, чтобы предложить правильный контент) User-Agent
, С ним все нормально работает
curl -O -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm
... Это официальный старый сервис и "плохой HTML", ни источник HTML, ни заголовки HTTP (-v
опция) показывает окончание (это не стандарт UTF-8). Полное решение
curl -H "User-Agent: Mozilla/5.0 (Linux)" \
http://www.planalto.gov.br/CCivil_03/leis/2002/L10406compilada.htm \
| iconv -c -t UTF-8 -f ISO-8859-1 > L10406compilada.htm