Wget का उपयोग करके वेबसाइट से सभी फाइलें (लेकिन HTML नहीं) कैसे डाउनलोड करें?

162

wgetवेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?

मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है

ubuntu download wget

अगर आप php डाउनलोड करना चाहते हैं, तो भी wget का उपयोग करना संभव नहीं है। हम wget का उपयोग करके केवल कच्चा HTML प्राप्त कर सकते हैं। मुझे लगता है कि आप इसका कारण जानते हैं

— वेंकटेश्वरन सेल्वराज

NB: हमेशा पहले से जाँच करें wget --spider, और हमेशा -w 1(या अधिक -w 5) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।

— isomorphismes

1

मैं इस पृष्ठ की सभी पीडीएफ फाइलें कैसे डाउनलोड कर सकता हूं? pualib.com/collection/pua-tmarks-a.html

स्टैक ओवरफ्लो प्रोग्रामिंग और विकास के सवालों के लिए एक साइट है। यह प्रश्न ऑफ़-टॉपिक प्रतीत होता है क्योंकि यह प्रोग्रामिंग या विकास के बारे में नहीं है। देखें किन विषयों मैं यहाँ के बारे में पूछ सकते हैं सहायता केंद्र में। शायद सुपर यूजर या यूनिक्स और लिनक्स स्टैक एक्सचेंज पूछने के लिए बेहतर जगह होगी। यह भी देखें कि मैं देव ऑप्स के बारे में प्रश्न कहां से पोस्ट करूं?

— 15:24 बजे jww

262

विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

या, यदि आप लंबे विकल्प नाम पसंद करते हैं:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

यह साइट को मिरर करेगा, लेकिन बिना jpgया pdfएक्सटेंशन की फाइलें अपने आप हट जाएंगी।

— ज़ोल्सट बोटकाई
स्रोत

17

यदि आप पूरी निर्देशिका आर्किटेक्चर के बिना फ़ाइलों को डाउनलोड करना चाहते हैं, तो -nd विकल्प का उपयोग कर सकते हैं ।

— डायबेलोनो

4

प्रत्येक झंडे का क्या मतलब है?

— जुरगेन पॉल

मेरे विचार --acceptकेस-संवेदी है, तो आपको बस इतना करना होता है--accept pdf,jpg,PDF,JPG

— Flimm

8

सुनिश्चित नहीं है कि यह एक नए संस्करण के साथ है, wgetलेकिन आपको एक --progressप्रकार निर्दिष्ट करना होगा , जैसे--progress=dot

— जामिस

@ आप मामले को असंवेदनशील --ignore-caseबनाने के लिए झंडे का भी इस्तेमाल कर सकते हैं --accept।

— हर्ष

84

इसने मेरे लिए पूरी वेबसाइट डाउनलोड की :

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

— izilotti
स्रोत

20

+1 के लिए -e robots=off! यह आखिरकार मेरी समस्या तय कर दी! :) धन्यवाद

— NHDaly

12

--random-wait); विकल्प प्रतिभाशाली है

— poitroae

2

@izilotti क्या साइट स्वामी को यह पता चल सकता है कि क्या आप इस विधि से उनकी साइट फ़ाइलों को मिटा देंगे?

— एलियास 7

1

@whatIsfectfect यह संभव है।

— जैक

1

@JackNicholsonn साइट के मालिक को कैसे पता चलेगा? उपयोग किया जाने वाला एजेंट मोज़िला था, जिसका अर्थ है कि सभी हेडर एक मोज़िला ब्राउज़र के रूप में जाएंगे, इस प्रकार उपयोग किए जाने वाले विजेट का पता लगाना संभव नहीं होगा? कृपया सही है अगर मैं गलत हूँ। धन्यवाद

— 49 पर खोई

63

wget -m -p -E -k -K -np http://site/path/

मैन पेज आपको बताएगा कि वे विकल्प क्या करते हैं।

wgetकेवल लिंक का अनुसरण करेगा, यदि इंडेक्स पेज से किसी फ़ाइल का लिंक नहीं है, तो wgetइसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड न करें। अर्थात। यह मदद करता है कि सभी फाइलें वेब पेज या डायरेक्टरी इंडेक्स में जुड़ी हुई हैं।

— जेसी
स्रोत

उत्तर के लिए धन्यवाद :) यह पूरी साइट को कॉपी करता है और मुझे वेबसाइट में केवल फाइलें (यानी txt, pdf, image आदि) चाहिए

— अनिरुद्धसिंह

25

मैं ओमेका के थीम पेज से जुड़ी ज़िप फ़ाइलों को डाउनलोड करने की कोशिश कर रहा था - समान कार्य। यह मेरे लिए काम किया:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-A: केवल ज़िप फ़ाइलों को स्वीकार करें
-r: पुनरावृत्ति
-l 1: एक स्तर गहरा (यानी, केवल फ़ाइलें सीधे इस पृष्ठ से जुड़ी हुई हैं)
-nd: एक निर्देशिका संरचना नहीं बनाते हैं, बस इस निर्देशिका में सभी फ़ाइलों को डाउनलोड करें।

के साथ सभी जवाब -k, -K, -Eआदि विकल्पों शायद वास्तव में, सवाल नहीं समझा जा सका है, HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए नाम बदलने के लिए के रूप में उन के रूप में .phpफ़ाइलों और इतने पर। संबद्ध नहीं।

वस्तुतः आदि को छोड़कर सभी फाइलें प्राप्त करने के लिए .html:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

— स्टीव बेनेट
स्रोत

2

-Aकेस-संवेदी है, मुझे लगता है, इसलिए आपको करना होगा-A zip,ZIP

— फ़्लिम

7

आप कोशिश कर सकते हैं:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

इसके अलावा आप जोड़ सकते हैं:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

विशिष्ट एक्सटेंशन स्वीकार करने या केवल विशिष्ट एक्सटेंशन अस्वीकार करने के लिए:

-R html,htm,asp,php

या विशिष्ट क्षेत्रों को बाहर करने के लिए:

-X "search*,forum*"

यदि फ़ाइलें रोबोट के लिए अनदेखा की जाती हैं (जैसे खोज इंजन), तो आपको भी जोड़ना होगा: -e robots=off

— kenorb
स्रोत

5

इसे इस्तेमाल करे। यह हमेशा मेरे लिए काम करता है

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

— सुनील कुमार
स्रोत

5

wget -m -A * -pk -e robots=off www.mysite.com/

यह सभी प्रकार की फ़ाइलों को स्थानीय रूप से डाउनलोड करेगा और उन्हें html फ़ाइल से इंगित करेगा और यह रोबोट फ़ाइल को अनदेखा करेगा

— अब्दुल्ला मोहम्मद अल इब्राहिम
स्रोत

2

विंडोज सिस्टम पर आप wget पाने के लिए कर सकते हैं

डाउनलोड Cygwin
GnuWin32 डाउनलोड करें

— ebinx
स्रोत