wget
वेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?
मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है
wget --spider
, और हमेशा -w 1
(या अधिक -w 5
) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।
wget
वेबसाइट से सभी फ़ाइलों का उपयोग कैसे करें और प्राप्त करें?
मुझे HTML, PHP, ASP आदि वेबपेज फ़ाइलों को छोड़कर सभी फ़ाइलों की आवश्यकता है
wget --spider
, और हमेशा -w 1
(या अधिक -w 5
) जोड़ें ताकि आप दूसरे व्यक्ति के सर्वर पर बाढ़ न डालें।
जवाबों:
विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
या, यदि आप लंबे विकल्प नाम पसंद करते हैं:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
यह साइट को मिरर करेगा, लेकिन बिना jpg
या pdf
एक्सटेंशन की फाइलें अपने आप हट जाएंगी।
--accept
केस-संवेदी है, तो आपको बस इतना करना होता है--accept pdf,jpg,PDF,JPG
wget
लेकिन आपको एक --progress
प्रकार निर्दिष्ट करना होगा , जैसे--progress=dot
--ignore-case
बनाने के लिए झंडे का भी इस्तेमाल कर सकते हैं --accept
।
इसने मेरे लिए पूरी वेबसाइट डाउनलोड की :
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off
! यह आखिरकार मेरी समस्या तय कर दी! :) धन्यवाद
--random-wait
); विकल्प प्रतिभाशाली है
wget -m -p -E -k -K -np http://site/path/
मैन पेज आपको बताएगा कि वे विकल्प क्या करते हैं।
wget
केवल लिंक का अनुसरण करेगा, यदि इंडेक्स पेज से किसी फ़ाइल का लिंक नहीं है, तो wget
इसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड न करें। अर्थात। यह मदद करता है कि सभी फाइलें वेब पेज या डायरेक्टरी इंडेक्स में जुड़ी हुई हैं।
मैं ओमेका के थीम पेज से जुड़ी ज़िप फ़ाइलों को डाउनलोड करने की कोशिश कर रहा था - समान कार्य। यह मेरे लिए काम किया:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: केवल ज़िप फ़ाइलों को स्वीकार करें-r
: पुनरावृत्ति-l 1
: एक स्तर गहरा (यानी, केवल फ़ाइलें सीधे इस पृष्ठ से जुड़ी हुई हैं)-nd
: एक निर्देशिका संरचना नहीं बनाते हैं, बस इस निर्देशिका में सभी फ़ाइलों को डाउनलोड करें।के साथ सभी जवाब -k
, -K
, -E
आदि विकल्पों शायद वास्तव में, सवाल नहीं समझा जा सका है, HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए नाम बदलने के लिए के रूप में उन के रूप में .php
फ़ाइलों और इतने पर। संबद्ध नहीं।
वस्तुतः आदि को छोड़कर सभी फाइलें प्राप्त करने के लिए .html
:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-A
केस-संवेदी है, मुझे लगता है, इसलिए आपको करना होगा-A zip,ZIP
आप कोशिश कर सकते हैं:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
इसके अलावा आप जोड़ सकते हैं:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
विशिष्ट एक्सटेंशन स्वीकार करने या केवल विशिष्ट एक्सटेंशन अस्वीकार करने के लिए:
-R html,htm,asp,php
या विशिष्ट क्षेत्रों को बाहर करने के लिए:
-X "search*,forum*"
यदि फ़ाइलें रोबोट के लिए अनदेखा की जाती हैं (जैसे खोज इंजन), तो आपको भी जोड़ना होगा: -e robots=off
इसे इस्तेमाल करे। यह हमेशा मेरे लिए काम करता है
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
यह सभी प्रकार की फ़ाइलों को स्थानीय रूप से डाउनलोड करेगा और उन्हें html फ़ाइल से इंगित करेगा और यह रोबोट फ़ाइल को अनदेखा करेगा