डाउनलोड पुनरावर्ती wget के साथ


32

मुझे निम्नलिखित wget कमांड के साथ एक समस्या है:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

इसे मूल वेब पर सभी लिंक किए गए दस्तावेज़ों को पुन: डाउनलोड करना चाहिए लेकिन यह केवल दो फ़ाइलों ( index.htmlऔर robots.txt) को डाउनलोड करता है ।

मैं इस वेब का पुनरावर्ती डाउनलोड कैसे प्राप्त कर सकता हूं ?

जवाबों:


40

wgetडिफ़ॉल्ट रूप से , रेंगने वाले पृष्ठों के लिए robots.txt मानक का सम्मान करता है , जैसे सर्च इंजन करते हैं, और आर्काइव.ऑर्ग के लिए, यह संपूर्ण / वेब / उपनिर्देशिका को बंद कर देता है। ओवरराइड करने के लिए, का उपयोग करें -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

धन्यवाद। क्या हर लिंक को केवल एक बार स्टोर करने का कोई विकल्प है? शायद मुझे 10कम संख्या में घटाना चाहिए , लेकिन यह अनुमान लगाना कठिन है। अब वहाँ एक फाइल है introduction.html, introduction.html.1, introduction.html.2और मैं नहीं बल्कि प्रक्रिया समाप्त हो गया।
xralf

और लिंक वेब पर निर्देशित कर रहे हैं। है --mirrorलिंक फाइल सिस्टम को निर्देशित करने के लिए के लिए विकल्प?
xralf

1
@xralf: ठीक है, आप उपयोग कर रहे हैं -nd, इसलिए अलग-अलग index.htmls को एक ही डायरेक्टरी में रखा गया है, और इसके बिना -k, आपको लिंक का पुनर्लेखन नहीं मिलेगा।
उलरिच श्वार्ज़

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

डाउनलोड यूआरएल की सामग्री को पुनरावर्ती बनाता है।

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

कुछ अन्य उपयोगी विकल्प हैं:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)+1
दानी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.