Wget का उपयोग करके सभी फ़ोल्डर, सबफ़ोल्डर और फ़ाइलें डाउनलोड करें


21

मैं Wget का उपयोग कर रहा हूं, और मैं एक मुद्दे पर चला गया हूं। मेरे पास एक साइट है, जिसमें साइट के भीतर कई फ़ोल्डर्स और सबफ़ोल्डर हैं। मुझे प्रत्येक फ़ोल्डर और सबफ़ोल्डर में सभी सामग्री डाउनलोड करने की आवश्यकता है। मैंने Wget का उपयोग करके कई तरीकों की कोशिश की है, और जब मैं पूरा होने की जांच करता हूं, तो मैं सभी फ़ोल्डर्स में देख सकता हूं कि एक "इंडेक्स" फ़ाइल है। मैं सूचकांक फ़ाइल पर क्लिक कर सकता हूं, और यह मुझे फाइलों में ले जाएगी, लेकिन मुझे वास्तविक फाइलों की आवश्यकता है।

क्या किसी के पास Wget के लिए एक आदेश है जिसे मैंने अनदेखा कर दिया है, या क्या कोई अन्य कार्यक्रम है जिसका मैं इस जानकारी को प्राप्त करने के लिए उपयोग कर सकता हूं?

साइट उदाहरण:

www.mysite.com/Pictures/ चित्र DIr के भीतर, कई फ़ोल्डर हैं .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

मुझे सभी फ़ाइलों, फ़ोल्डरों, आदि की आवश्यकता है ....।


1
क्या आपने wgetविशेष रूप से पुनरावर्ती उपयोग करने के लिए प्रलेखन को पढ़ा है ?
मूसा

यहाँ प्रलेखन में एक लेख भी है जो प्रासंगिक लगता है।
मूसा

जवाबों:


38

मुझे लगता है कि आपने यह कोशिश नहीं की है:

wget -r --no-parent http://www.mysite.com/Pictures/

या "index.html" फ़ाइलों को डाउनलोड किए बिना, सामग्री को पुनः प्राप्त करने के लिए:

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

संदर्भ: पुनरावृत्ति के साथ एक निर्देशिका लाने के लिए wget का उपयोग करके इसमें मनमानी फ़ाइलों के साथ


1
धन्यवाद, मैंने कई बार उस कमांड को चलाया है, लेकिन मैंने कमांड को अंत तक पूरा नहीं होने दिया। मुझे साइड ट्रैक किया गया, और कमांड को वास्तव में खत्म होने दिया, और इसने All Folders First को कॉपी किया, फिर यह वापस चला गया और सभी फाइलों को फ़ोल्डर में कॉपी कर दिया।
होरीड हेनरी

बस आपको दिखाने के लिए जाता है, अगर मेरे पास धैर्य होता, तो मैंने 2 सप्ताह पहले ऐसा किया होता। :) एक बार फिर धन्यवाद।
हॉरिड हेनरी Hor

@ हेनरीड, बधाई!
फेलिक्स इमाफिडन

मैं समान कमांड का उपयोग करता हूं लेकिन केवल एक index.html फ़ाइल प्राप्त कर रहा हूं!
शेंकवेन जू

20

मैं उपयोग करता हूं wget -rkpN -e robots=off http://www.example.com/

-r पुनरावृत्ति का मतलब है

-kका अर्थ है लिंक लिंक। इसलिए वेबपेज पर लिंक example.com/bla के बजाय लोकलहोस्ट होंगे

-p इसका मतलब है कि सभी वेबपेज संसाधन प्राप्त करें ताकि वेबसाइट काम ठीक से करने के लिए चित्र और जावास्क्रिप्ट फाइलें प्राप्त करें।

-N टाइमस्टैम्प पुनः प्राप्त करने के लिए है, यदि स्थानीय फ़ाइलें दूरस्थ वेबसाइट पर फ़ाइलों की तुलना में नई हैं तो उन्हें छोड़ दें।

-eयह काम करने के लिए एक फ्लैग ऑप्शन है robots=off

robots=off इसका मतलब है कि रोबोट फ़ाइल को अनदेखा करें।

-cइस कमांड में मेरे पास भी था तो अगर वे कनेक्शन गिरा देते हैं तो यह जारी रहेगा कि कमांड को फिर से चलाने के बाद इसे कहाँ से छोड़ा जाए। मुझे लगा -Nकि अच्छा होगा-c


क्या आप अपने जवाब के लिए कुछ वाक्यों को जोड़कर बता सकते हैं कि ये पैरामीटर सेटिंग्स क्या करती हैं?
फिक्सर 1234

माफ़ करना। सुनिश्चित करें कि बीमार अब उन्हें जोड़ दें
टिम जोनास

मैंने अपना जवाब अपडेट किया है
टिम जोनास

धन्यवाद। तो-अधूरे डाउनलोड के बाद वैकल्पिक रूप से आपके कमांड उदाहरण का हिस्सा होना चाहिए या जोड़ा जाना चाहिए? इसके अलावा, यह है कि आदेश किसी भी है कि .wgetrc में हो सकता है पर पूर्वता लेता है? और यह है कि टाइपो के लिए आर (पुनरावर्ती बनाम पुनरावर्ती)?
फिक्सर 1234

हां यह सही है। हाँ -eकमांड निष्पादित करेगा जैसे कि यह .wgetrc का एक हिस्सा था मैंने इसे वहां जोड़ा क्योंकि robots=offऐसा लगता है कि इसके बिना काम नहीं किया गया था।
टिम जोनास

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.