среда, 13 мая 2009 г.

Возможности wget

Просто скачать файл wget-ом
wget ftp://site.com/film.avi
Для продолжения файла закачки пишем:
wget -c ftp://site.com/film.avi
или
wget -continue ftp://site.com/film.avi

Чтобы выкачать файлы из списка, содержащего прямые ссылки:
wget -i mylinks.txt
или
wget -input-file=mylinks.txt


Зеркалирование сайтов на локальную машину:
wget -m http://site.com/

Копирование сайта для локального просмотра:
wget -r -l0 -np -k http://www.vasyapupkin.com/

  • При этом будет включена рекурсивная выгрузка (ключ -r, --recursive), то есть не только файлы с главной страницы, но и все остальные, на которые ведут ссылки (ключ -l0 бесконечная вложенность ссылок). Имена ссылок будут переконвертированы в локальные для удобства просмотра (ключ -k). Так же при помощи ключа -np (no-parrent) можно запретить wget подниматься выше начального адреса при рекурсивной загрузке, то есть если вы копируете http://home.vasyapupkin.com/ то по ссылкам с основного сайта http://www.vasyapupkin.com/ скопированы не будут.
  • И несколько других полезных ключей
  • Включение и исключение файлов при загрузке
  • -A acclist | -accept acclist

  • -R rejlist | -reject rejlist
  • Задаёт разделяемые запятыми шаблоны имён файлов, которые следует загружать (acclist) или игнорировать (rejlist).
  • -k | -convert-links
  • Превращает абсолютные ссылки (типа http://www...) в относительные (типа file///home/vasya/www/index.html) для удобства локального просмотра. Чтобы локально в броузере просмотреть скачанный сайт, открываете файл index.html в броузере и бродите по ссылкам точно так же, как если бы вы были подключены к Интернету.
  • -H --span-hosts
  • Разрешает wget скачивать данные с любого адреса, на который есть ссылка в запрашиваемом документе.

  • -p --page-requisites
  • Загружать все файлы, которые нужны для отображения страниц HTML. Например: рисунки, звук и каскадные стили. После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме. Это касается не только видимых ссылок на другие документы, а ссылок на все внешние локальные файлы.

Скрипт для скачивания сайтов (тут)
siteget http://www.vasyapupkin.com/

#!/bin/bash
#
# siteget - Use wget to retrieve a website
#
if [ "$#" -ne "1" ]
then
echo "$(basename ${0}) "
echo ""
echo "Get a website or book on the web using wget. It's a one-liner, but"
echo "it uses a lot of options, so I put it in a script. Takes one option,"
echo "a top-level URL."
exit 1
fi

# --mirror gives infinite recursion, follows links ...
# --convert-links converts links for local viewing
# --no-verbose is a relatively quiet (but not silent) mode
# --no-parent won't traverse up the tree - don't know how this combines with
# "page-requisites," but I hope the latter wins ... (seems to work well)
# --page-requisites get images (inline OR external) for local viewing
# --user-agent sets a user agent string because some sites send empty pages if
# they don't like wget, so I use the string for what I'll be viewing with
#
wget --mirror --convert-links --no-verbose --no-parent --page-requisites \
--user-agent="Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" ${1}

отсюда

Комментариев нет:

Отправить комментарий