AA_baustelle.tif

© Chode,123RF

Downloadprofi

Wget

In den Shortcuts stellen wir diesmal die wichtigsten Schalter für das Download-Tools Wget vor. Über das laden Sie über die Kommandozeile oder mit Hilfe von Skripten komplette Webseiten oder ihre Inhalte herunter.

GPL-Erfinder Richard Stallman schaut Webseiten nicht mit einem Browser an, sondern er lädt sie mit Wget herunter [1]. Genau genommen schickt er eine E-Mail an ein Programm, dass die Webseite herunterlädt und ihm zurück mailt. Das ist exzentrisch, doch Stallman ist nicht der einzige Wget-Benutzer. Auch auf http://ubuntu-user.de taucht der Grabber regelmäßig in den Log-Dateien auf. Wget kommt bevorzugt zum Einsatz, wenn Sie nur bestimmte Elemente einer Seite herunterladen und diese dann in einem Skript weiterverarbeiten wollen. Wir stellen einige der vielen Optionen vor.

Shortcuts & Schalter

Befehl Erklärung
Wget
URL lädt die Datei(en) im Wurzelverzeichnis einer URL (HTTP/FTP) herunter
URL/verzeichnis lädt die Datei(en) eines bestimmten Verzeichnisses einer URL (HTTP/FTP) herunter, wenn die Datei robots.txt das nicht verbietet
ftp://benutzer:passwort@URL lädt Datei(en) einer URL (HTTP/FTP) herunter, die ein Passwort schützt
-r URL lädt Datei(en) rekursiv herunter und legt sie in der Struktur des Servers ab, also beginnend mit der Domain selbst
-p lädt alle Elemente herunter, die zu einer Webseite gehören, auch wenn diese mehrere Ebenen in die Tiefe reicht
-k URL formt die Links von heruntergeladenen Dateien, in lokale Links um. So lassen sich Webseiten auf Ihrem Rechner lesen. Links zu nicht heruntergeladenen Dateien verwandelt Wget in absolute Links
-L nur relativen Links folgen
-l n lädt Webseiten nur bis zu n-ten Ebene herunter
-A liste lädt nur Dateien mit den in der Liste definierten Endungen herunter, mehrere Werte durch Kommata trennen
-X liste Verzeichnisse vom Download ausnehmen
-H verweisen Seiten auf andere Hosts, lädt Wget deren Inhalte auch mit herunter
-c setzt einen früheren, mit Wget angestoßenen, Download fort, klappt auch über HTTP/FTP, wenn der Server das unterstützt
-nc steht für "no-clobber", existiert bereits eine ältere Datei diesen Namens, bleibt sie erhalten
-nd alle heruntergeladenen Dateien landen im selben Verzeichnis, Wget erstellt keine Verzeichnishierarchien, Dateien mit demselben Dateinamen werden umbenannt, von datei in datei.1
-nh entfernt beim Herunterladen den Hostnamen, etwa http://ubuntu-user.de
-np Nicht zum übergeordneten Verzeichnis zurückkehren
--cut-dirs=n schneidet beim Herunterladen n Ebenen aus dem Verzeichnisbaum. Gilt n=1 erhalten Sie etwa http://ubuntu-user.de/Artikel anstelle von http://ubuntu-user.de/News/Artikel
-U browserkennung Wget identifiziert sich mit anderer Browserkennung beim Server
-m schaltet alle Optionen ein, damit Wget einen Mirror erstellt, d.h. -r -N -l inf --no-remove-listing
Nützlich Optionen für den Skripteinsatz
-o datei erstellt beim Download eine Log-Datei mit Fehlermeldungen
-a datei hängt Fehlermeldungen an eine vorhandene Log-Datei ran
-d gibt Debug-Informationen beim Ausführen
-q steht für "quiet" und unterdrückt sämtliche Ausgaben beim Ausführen von Wget
-nv unterdrückt alle Ausgaben bis auf Fehlermeldungen und grundlegende Informationen
-i datei liest URLs aus einer externen Datei, eine URL pro Zeile
-p Job im Hintergrund ausführen
-e befehl Befehl nach dem Abarbeiten der lokalen Datei ~/.wgetrc ausführen

Infos

  1. Richard Stallman und Wget: http://stallman.org/stallman-computing.html
Einem Freund empfehlen