wgetवेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?
मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है
wget --spider, और हमेशा -w 1(या अधिक -w 5) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।
wgetवेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?
मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है
wget --spider, और हमेशा -w 1(या अधिक -w 5) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।
जवाबों:
विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
या, यदि आप लंबे विकल्प नाम पसंद करते हैं:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
यह साइट को मिरर करेगा, लेकिन बिना jpgया pdfएक्सटेंशन की फाइलें अपने आप हट जाएंगी।
--acceptकेस-संवेदी है, तो आपको बस इतना करना होता है--accept pdf,jpg,PDF,JPG
wgetलेकिन आपको एक --progressप्रकार निर्दिष्ट करना होगा , जैसे--progress=dot
--ignore-caseबनाने के लिए झंडे का भी इस्तेमाल कर सकते हैं --accept।
इसने मेरे लिए पूरी वेबसाइट डाउनलोड की :
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off! यह आखिरकार मेरी समस्या तय कर दी! :) धन्यवाद
--random-wait); विकल्प प्रतिभाशाली है
wget -m -p -E -k -K -np http://site/path/
मैन पेज आपको बताएगा कि वे विकल्प क्या करते हैं।
wgetकेवल लिंक का अनुसरण करेगा, यदि इंडेक्स पेज से किसी फ़ाइल का लिंक नहीं है, तो wgetइसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड न करें। अर्थात। यह मदद करता है कि सभी फाइलें वेब पेज या डायरेक्टरी इंडेक्स में जुड़ी हुई हैं।
मैं ओमेका के थीम पेज से जुड़ी ज़िप फ़ाइलों को डाउनलोड करने की कोशिश कर रहा था - समान कार्य। यह मेरे लिए काम किया:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: केवल ज़िप फ़ाइलों को स्वीकार करें-r: पुनरावृत्ति-l 1: एक स्तर गहरा (यानी, केवल फ़ाइलें सीधे इस पृष्ठ से जुड़ी हुई हैं)-nd: एक निर्देशिका संरचना नहीं बनाते हैं, बस इस निर्देशिका में सभी फ़ाइलों को डाउनलोड करें।के साथ सभी जवाब -k, -K, -Eआदि विकल्पों शायद वास्तव में, सवाल नहीं समझा जा सका है, HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए नाम बदलने के लिए के रूप में उन के रूप में .phpफ़ाइलों और इतने पर। संबद्ध नहीं।
वस्तुतः आदि को छोड़कर सभी फाइलें प्राप्त करने के लिए .html:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-Aकेस-संवेदी है, मुझे लगता है, इसलिए आपको करना होगा-A zip,ZIP
आप कोशिश कर सकते हैं:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
इसके अलावा आप जोड़ सकते हैं:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
विशिष्ट एक्सटेंशन स्वीकार करने या केवल विशिष्ट एक्सटेंशन अस्वीकार करने के लिए:
-R html,htm,asp,php
या विशिष्ट क्षेत्रों को बाहर करने के लिए:
-X "search*,forum*"
यदि फ़ाइलें रोबोट के लिए अनदेखा की जाती हैं (जैसे खोज इंजन), तो आपको भी जोड़ना होगा: -e robots=off
इसे इस्तेमाल करे। यह हमेशा मेरे लिए काम करता है
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
यह सभी प्रकार की फ़ाइलों को स्थानीय रूप से डाउनलोड करेगा और उन्हें html फ़ाइल से इंगित करेगा और यह रोबोट फ़ाइल को अनदेखा करेगा