Wget का उपयोग करके वेबसाइट से सभी फाइलें (लेकिन HTML नहीं) कैसे डाउनलोड करें?


162

wgetवेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?

मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है


अगर आप php डाउनलोड करना चाहते हैं, तो भी wget का उपयोग करना संभव नहीं है। हम wget का उपयोग करके केवल कच्चा HTML प्राप्त कर सकते हैं। मुझे लगता है कि आप इसका कारण जानते हैं
वेंकटेश्वरन सेल्वराज

NB: हमेशा पहले से जाँच करें wget --spider, और हमेशा -w 1(या अधिक -w 5) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।
isomorphismes

1
मैं इस पृष्ठ की सभी पीडीएफ फाइलें कैसे डाउनलोड कर सकता हूं? pualib.com/collection/pua-tmarks-a.html

स्टैक ओवरफ्लो प्रोग्रामिंग और विकास के सवालों के लिए एक साइट है। यह प्रश्न ऑफ़-टॉपिक प्रतीत होता है क्योंकि यह प्रोग्रामिंग या विकास के बारे में नहीं है। देखें किन विषयों मैं यहाँ के बारे में पूछ सकते हैं सहायता केंद्र में। शायद सुपर यूजर या यूनिक्स और लिनक्स स्टैक एक्सचेंज पूछने के लिए बेहतर जगह होगी। यह भी देखें कि मैं देव ऑप्स के बारे में प्रश्न कहां से पोस्ट करूं?
15:24 बजे jww

जवाबों:


262

विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

या, यदि आप लंबे विकल्प नाम पसंद करते हैं:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

यह साइट को मिरर करेगा, लेकिन बिना jpgया pdfएक्सटेंशन की फाइलें अपने आप हट जाएंगी।


17
यदि आप पूरी निर्देशिका आर्किटेक्चर के बिना फ़ाइलों को डाउनलोड करना चाहते हैं, तो -nd विकल्प का उपयोग कर सकते हैं ।
डायबेलोनो

4
प्रत्येक झंडे का क्या मतलब है?
जुरगेन पॉल

मेरे विचार --acceptकेस-संवेदी है, तो आपको बस इतना करना होता है--accept pdf,jpg,PDF,JPG
Flimm

8
सुनिश्चित नहीं है कि यह एक नए संस्करण के साथ है, wgetलेकिन आपको एक --progressप्रकार निर्दिष्ट करना होगा , जैसे--progress=dot
जामिस

@ आप मामले को असंवेदनशील --ignore-caseबनाने के लिए झंडे का भी इस्तेमाल कर सकते हैं --accept
हर्ष

84

इसने मेरे लिए पूरी वेबसाइट डाउनलोड की :

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

20
+1 के लिए -e robots=off! यह आखिरकार मेरी समस्या तय कर दी! :) धन्यवाद
NHDaly

12
--random-wait); विकल्प प्रतिभाशाली है
poitroae

2
@izilotti क्या साइट स्वामी को यह पता चल सकता है कि क्या आप इस विधि से उनकी साइट फ़ाइलों को मिटा देंगे?
एलियास 7

1
@whatIsfectfect यह संभव है।
जैक

1
@JackNicholsonn साइट के मालिक को कैसे पता चलेगा? उपयोग किया जाने वाला एजेंट मोज़िला था, जिसका अर्थ है कि सभी हेडर एक मोज़िला ब्राउज़र के रूप में जाएंगे, इस प्रकार उपयोग किए जाने वाले विजेट का पता लगाना संभव नहीं होगा? कृपया सही है अगर मैं गलत हूँ। धन्यवाद
49 पर खोई

63
wget -m -p -E -k -K -np http://site/path/

मैन पेज आपको बताएगा कि वे विकल्प क्या करते हैं।

wgetकेवल लिंक का अनुसरण करेगा, यदि इंडेक्स पेज से किसी फ़ाइल का लिंक नहीं है, तो wgetइसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड न करें। अर्थात। यह मदद करता है कि सभी फाइलें वेब पेज या डायरेक्टरी इंडेक्स में जुड़ी हुई हैं।


उत्तर के लिए धन्यवाद :) यह पूरी साइट को कॉपी करता है और मुझे वेबसाइट में केवल फाइलें (यानी txt, pdf, image आदि) चाहिए
अनिरुद्धसिंह

25

मैं ओमेका के थीम पेज से जुड़ी ज़िप फ़ाइलों को डाउनलोड करने की कोशिश कर रहा था - समान कार्य। यह मेरे लिए काम किया:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
  • -A: केवल ज़िप फ़ाइलों को स्वीकार करें
  • -r: पुनरावृत्ति
  • -l 1: एक स्तर गहरा (यानी, केवल फ़ाइलें सीधे इस पृष्ठ से जुड़ी हुई हैं)
  • -nd: एक निर्देशिका संरचना नहीं बनाते हैं, बस इस निर्देशिका में सभी फ़ाइलों को डाउनलोड करें।

के साथ सभी जवाब -k, -K, -Eआदि विकल्पों शायद वास्तव में, सवाल नहीं समझा जा सका है, HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए नाम बदलने के लिए के रूप में उन के रूप में .phpफ़ाइलों और इतने पर। संबद्ध नहीं।

वस्तुतः आदि को छोड़कर सभी फाइलें प्राप्त करने के लिए .html:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

2
-Aकेस-संवेदी है, मुझे लगता है, इसलिए आपको करना होगा-A zip,ZIP
फ़्लिम

7

आप कोशिश कर सकते हैं:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

इसके अलावा आप जोड़ सकते हैं:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

विशिष्ट एक्सटेंशन स्वीकार करने या केवल विशिष्ट एक्सटेंशन अस्वीकार करने के लिए:

-R html,htm,asp,php

या विशिष्ट क्षेत्रों को बाहर करने के लिए:

-X "search*,forum*"

यदि फ़ाइलें रोबोट के लिए अनदेखा की जाती हैं (जैसे खोज इंजन), तो आपको भी जोड़ना होगा: -e robots=off




हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.