मुझे HTTP के माध्यम से एक साइट को चीरने की आवश्यकता है। मुझे छवियों, एचटीएमएल, सीएसएस और जावास्क्रिप्ट को डाउनलोड करने के साथ-साथ इसे एक फाइल सिस्टम में व्यवस्थित करने की आवश्यकता है।
क्या किसी को भी यह करना आता है?
मुझे HTTP के माध्यम से एक साइट को चीरने की आवश्यकता है। मुझे छवियों, एचटीएमएल, सीएसएस और जावास्क्रिप्ट को डाउनलोड करने के साथ-साथ इसे एक फाइल सिस्टम में व्यवस्थित करने की आवश्यकता है।
क्या किसी को भी यह करना आता है?
जवाबों:
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
यह कंसोल में चलता है।
यह एक साइट को ले जाएगा, अनुरोधों के बीच 3 सेकंड प्रतीक्षा करें, इसे कितनी तेजी से डाउनलोड करें, ताकि यह साइट को न मारें, और खुद को इस तरह से मुखौटा करें जिससे यह सिर्फ एक ब्राउज़र बन जाए ताकि साइट आपको काट न सके। एक विरोधी जोंक तंत्र का उपयोग कर।
उस -A
पैरामीटर पर ध्यान दें जो उस फ़ाइल प्रकार की सूची को इंगित करता है जिसे आप डाउनलोड करना चाहते हैं।
आप एक अन्य टैग का भी उपयोग कर सकते हैं, -D domain1.com,domain2.com
उन डोमेन की एक श्रृंखला को इंगित करने के लिए जिन्हें आप डाउनलोड करना चाहते हैं यदि उनके पास एक और सर्वर है या जो विभिन्न प्रकार की फ़ाइलों की मेजबानी के लिए है। कोई भी सुरक्षित तरीका नहीं है कि सभी मामलों के लिए, अगर आप फ़ाइलों को प्राप्त नहीं करते हैं।
wget
आमतौर पर लिनक्स पर प्रीइंस्टॉल्ड किया जाता है, लेकिन अन्य यूनिक्स सिस्टम के लिए तुच्छ रूप से संकलित किया जा सकता है या विंडोज के लिए आसानी से डाउनलोड किया जा सकता है: GNUwin32 WGET
इस का उपयोग अच्छे और बुरे के लिए न करें।
अच्छा, मुफ्त समाधान: HTTrack
HTTrack एक मुफ्त (GPL, libre / मुफ्त सॉफ्टवेयर) और आसानी से उपयोग होने वाला ऑफ़लाइन ब्राउज़र उपयोगिता है।
यह आपको इंटरनेट से एक स्थानीय निर्देशिका में वर्ल्ड वाइड वेब साइट को डाउनलोड करने की अनुमति देता है, जो सभी निर्देशिकाओं का पुनरावर्ती निर्माण करता है, जो आपके कंप्यूटर से सर्वर से HTML, छवियां और अन्य फाइलें प्राप्त कर रहा है। HTTrack मूल साइट के सापेक्ष लिंक-संरचना की व्यवस्था करता है। बस अपने ब्राउज़र में "प्रतिबिंबित" वेबसाइट का एक पृष्ठ खोलें, और आप साइट को लिंक से लिंक तक ब्राउज़ कर सकते हैं, जैसे कि आप ऑनलाइन देख रहे थे। HTTrack एक मौजूदा मिरर साइट को अपडेट कर सकता है, और बाधित डाउनलोड फिर से शुरू कर सकता है। HTTrack पूरी तरह से विन्यास योग्य है, और इसमें एक एकीकृत सहायता प्रणाली है।
लिनक्स सिस्टम पर, 'wget' ऐसा करता है, बहुत ज्यादा।
इसका अन्य कई प्लेटफ़ॉर्म पर भी पोर्ट किया गया है, जैसा कि अन्य उत्तरों में से कई का उल्लेख है।
जाहिर है WGet का उल्लेख कुछ ही बार किया गया है। मैंने इसके लिए सबसे अच्छा यूआई पाया है
WGet के लिए कुछ अन्य UI हैं, जिनमें से कुछ सबसे खराब ui प्रश्न के उम्मीदवार हैं
आपको wget का उपयोग करने की आवश्यकता है - जो कि अधिकांश प्लेटफार्मों के लिए उपलब्ध है। कर्ल पुनरावर्ती दस्तावेज़ों का अनुरोध नहीं करेगा, जो कि wget की प्रमुख शक्तियों में से एक है।
लिनक्स: (आमतौर पर डिस्ट्रो में शामिल) http://www.gnu.org/software/wget/
विंडोज: http://gnuwin32.sourceforge.net/packages/wget.htm
मैक: http: //www.geekology। co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
कृपया सुनिश्चित करें कि आप वेबसाइट को हथौड़ा नहीं दे रहे हैं - अनुरोधों के बीच उपयुक्त देरी सेट करें, और सुनिश्चित करें कि यह साइट की सेवा की शर्तों के भीतर है।
-Adam
वास्तव में, GWLlosa की पोस्ट में मेरी टिप्पणी के बाद, मुझे याद आया कि मेरे पास GnuWin32 स्थापित है, और निश्चित रूप से इसमें पर्याप्त विंडोज पोर्ट शामिल है।
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
मैंने कुछ साल पहले इसका इस्तेमाल किया था और इसने अच्छा काम किया। केवल विंडोज। जाहिरा तौर पर इस्तेमाल किया जाता है, लेकिन अब नहीं:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
-p
: पैरामीटर छवियों सहित सभी फ़ाइलों को शामिल करने के लिए wget को बताता है।-e robots=off
: robots.txt नियमों को अनदेखा करें-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
: यूजर एजेंट स्ट्रिंग--random-wait
: ब्लैक लिस्टेड होने से बचें--limit-rate=20k
: जिस दर पर यह फाइलें डाउनलोड करता है, उसे सीमित करता है।-b
: लॉग आउट करने के बाद भी जारी रहता है।
-c
(या --continue
) विकल्प जोड़ता हूं और मुझे प्रक्रिया को फिर से शुरू करना होगा।
मुझे लगता है कि IDM साइट धरनेवाला सबसे अच्छा समाधान है, Teleport समर्थक भी है
मुफ्त डाउनलोड प्रबंधक के रूप में अच्छी तरह से पूरा वेब साइटों को डाउनलोड कर सकते हैं।
विंडोज केवल मुझे लगता है।