छवियों, HTML और सीएसएस को डाउनलोड करने के लिए HTTP के माध्यम से एक वेबसाइट को चीर दें


22

मुझे HTTP के माध्यम से एक साइट को चीरने की आवश्यकता है। मुझे छवियों, एचटीएमएल, सीएसएस और जावास्क्रिप्ट को डाउनलोड करने के साथ-साथ इसे एक फाइल सिस्टम में व्यवस्थित करने की आवश्यकता है।

क्या किसी को भी यह करना आता है?


2
आपको यह उल्लेख करना चाहिए कि आप कॉपीराइट उल्लंघन के लिए इस सॉफ़्टवेयर का उपयोग नहीं करने जा रहे हैं। अन्यथा हम केवल यह मान लेते हैं कि आप किसी और की सामग्री को दर्पण करना चाहते हैं ताकि आप उससे पैसे कमा सकें।
बेलगरियनएकिंग

हम एक बार एक ग्राहक को छोड़ना चाहते थे, लेकिन सीएमएस को छोड़ते हुए, अपनी साइट के स्थिर HTML संस्करण को लेते हैं। स्थैतिक साइट बनाने के लिए मैंने HTTrack का उपयोग किया। यह विंडोज और उबंटू पर अच्छा काम करता है।
टीआरआईजी

4
@belgariontheking: दिलचस्प है कि आप सबसे खराब मानते हैं। हम अपनी खुद की गतिशील वेब साइट का एक स्थिर HTML संस्करण डाउनलोड करने के लिए WinHTTrack का भी उपयोग करते हैं।
Umber Ferrule

जवाबों:


40
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

यह कंसोल में चलता है।

यह एक साइट को ले जाएगा, अनुरोधों के बीच 3 सेकंड प्रतीक्षा करें, इसे कितनी तेजी से डाउनलोड करें, ताकि यह साइट को न मारें, और खुद को इस तरह से मुखौटा करें जिससे यह सिर्फ एक ब्राउज़र बन जाए ताकि साइट आपको काट न सके। एक विरोधी जोंक तंत्र का उपयोग कर।

उस -Aपैरामीटर पर ध्यान दें जो उस फ़ाइल प्रकार की सूची को इंगित करता है जिसे आप डाउनलोड करना चाहते हैं।

आप एक अन्य टैग का भी उपयोग कर सकते हैं, -D domain1.com,domain2.comउन डोमेन की एक श्रृंखला को इंगित करने के लिए जिन्हें आप डाउनलोड करना चाहते हैं यदि उनके पास एक और सर्वर है या जो विभिन्न प्रकार की फ़ाइलों की मेजबानी के लिए है। कोई भी सुरक्षित तरीका नहीं है कि सभी मामलों के लिए, अगर आप फ़ाइलों को प्राप्त नहीं करते हैं।

wgetआमतौर पर लिनक्स पर प्रीइंस्टॉल्ड किया जाता है, लेकिन अन्य यूनिक्स सिस्टम के लिए तुच्छ रूप से संकलित किया जा सकता है या विंडोज के लिए आसानी से डाउनलोड किया जा सकता है: GNUwin32 WGET

इस का उपयोग अच्छे और बुरे के लिए न करें।


1
wget -erobots = off --no-parent --wait = 3 --limit-rate = 50K -r -p -U "Mozilla / 4.0 (संगत; MSIE 7.0; Windows NT 5.1)" -k --directory-prefix "C: \ rip" --page-requisites -A htm, aspx, php, jsp, asp, zip, png, html, css, js, json, gif, jpeg, jpg, bmp domain.com
क्रिस एस

क्या यह "वैनिटी यूआरएल" पर काम करेगा? मैं सोशल नेटवर्किंग साइट पर लिखी अपनी सामग्री (ओके, गाने) को लेकर चिंतित हूं और मैं इसका स्थानीय स्तर पर बैकअप लेना चाहता हूं। साइट "www.example.com" है, लेकिन मेरे उपयोगकर्ता नाम "avi.example.com" के साथ एक वैनिटी URL है। मैं पूरी साइट को डाउनलोड नहीं करना चाहता, बस मेरी सामग्री!
अवी

लिनक्स पर, आप स्रोतों से विजेट स्थापित करना चाह सकते हैं। उदाहरण के लिए, Ubuntu संस्करण, सीएसएस को पार्स नहीं करता है जबकि अपस्ट्रीम वेट को करता है।
जीडीआर

16

अच्छा, मुफ्त समाधान: HTTrack

HTTrack एक मुफ्त (GPL, libre / मुफ्त सॉफ्टवेयर) और आसानी से उपयोग होने वाला ऑफ़लाइन ब्राउज़र उपयोगिता है।

यह आपको इंटरनेट से एक स्थानीय निर्देशिका में वर्ल्ड वाइड वेब साइट को डाउनलोड करने की अनुमति देता है, जो सभी निर्देशिकाओं का पुनरावर्ती निर्माण करता है, जो आपके कंप्यूटर से सर्वर से HTML, छवियां और अन्य फाइलें प्राप्त कर रहा है। HTTrack मूल साइट के सापेक्ष लिंक-संरचना की व्यवस्था करता है। बस अपने ब्राउज़र में "प्रतिबिंबित" वेबसाइट का एक पृष्ठ खोलें, और आप साइट को लिंक से लिंक तक ब्राउज़ कर सकते हैं, जैसे कि आप ऑनलाइन देख रहे थे। HTTrack एक मौजूदा मिरर साइट को अपडेट कर सकता है, और बाधित डाउनलोड फिर से शुरू कर सकता है। HTTrack पूरी तरह से विन्यास योग्य है, और इसमें एक एकीकृत सहायता प्रणाली है।


7

लिनक्स सिस्टम पर, 'wget' ऐसा करता है, बहुत ज्यादा।

इसका अन्य कई प्लेटफ़ॉर्म पर भी पोर्ट किया गया है, जैसा कि अन्य उत्तरों में से कई का उल्लेख है।



चूंकि यह लिनक्स है, मैं शायद एक उबंटू वीएम बनाऊंगा, wget चलाऊंगा, और फाइलों को अपने होस्ट कंप्यूटर में वापस स्थानांतरित करूंगा। ऐसा लगता है कि विंडोज को पोर्ट करने से ज्यादा तेज होगा। :) (दी गई, विंडोज के लिए पोर्टिंग शायद वैसे भी एक अच्छा व्यायाम है!)
JMD

मैं अपनी मशीन पर डेबियन चलाता हूं। क्या मैं संबंधित http: // डोमेन / javascript / css / images को केवल http रूट डोमेन देकर पुनः प्राप्त करना बता सकता हूँ?
डेमोन

# Example.com की पूरी सामग्री डाउनलोड करें wget -r -l 0 example.com

हाँ ... या मूल Windows पोर्ट का उपयोग करें, या Cygwin का उपयोग करें ...
Tmdean

2

जाहिर है WGet का उल्लेख कुछ ही बार किया गया है। मैंने इसके लिए सबसे अच्छा यूआई पाया है

WGet के लिए कुछ अन्य UI हैं, जिनमें से कुछ सबसे खराब ui प्रश्न के उम्मीदवार हैं


1

फ़ायरफ़ॉक्स के लिए स्क्रैपबुक एक्सटेंशन देखें। यह इस पर एक अद्भुत काम करता है और फायरबग के साथ भी एकीकृत होता है और यदि आप चाहें तो आपको बचाने से पहले डोम से तत्वों को हटाने की अनुमति देता है।


1

आपको wget का उपयोग करने की आवश्यकता है - जो कि अधिकांश प्लेटफार्मों के लिए उपलब्ध है। कर्ल पुनरावर्ती दस्तावेज़ों का अनुरोध नहीं करेगा, जो कि wget की प्रमुख शक्तियों में से एक है।

लिनक्स: (आमतौर पर डिस्ट्रो में शामिल) http://www.gnu.org/software/wget/
विंडोज: http://gnuwin32.sourceforge.net/packages/wget.htm
मैक: http: //www.geekology। co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/

कृपया सुनिश्चित करें कि आप वेबसाइट को हथौड़ा नहीं दे रहे हैं - अनुरोधों के बीच उपयुक्त देरी सेट करें, और सुनिश्चित करें कि यह साइट की सेवा की शर्तों के भीतर है।

-Adam


वास्तव में, यह हमारा सर्वर है जिसे हम हथौड़ा मारेंगे। साइट PHP के माध्यम से गतिशील रूप से उत्पन्न होती है और CMS / DB को मंगाई गई। यह एक जटिल कहानी है, मैं डेवलपर हूं जो अभी यहां मिला है। लेकिन हम सब कुछ अब django में बना रहे हैं, इसलिए आपको चिंता करने की ज़रूरत नहीं है।
डेमन

1

वास्तव में, GWLlosa की पोस्ट में मेरी टिप्पणी के बाद, मुझे याद आया कि मेरे पास GnuWin32 स्थापित है, और निश्चित रूप से इसमें पर्याप्त विंडोज पोर्ट शामिल है।

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP

1

मैंने कुछ साल पहले इसका इस्तेमाल किया था और इसने अच्छा काम किया। केवल विंडोज। जाहिरा तौर पर इस्तेमाल किया जाता है, लेकिन अब नहीं:

http://www.webreaper.net/


1

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p : पैरामीटर छवियों सहित सभी फ़ाइलों को शामिल करने के लिए wget को बताता है।
  • -e robots=off : robots.txt नियमों को अनदेखा करें
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" : यूजर एजेंट स्ट्रिंग
  • --random-wait : ब्लैक लिस्टेड होने से बचें
  • --limit-rate=20k : जिस दर पर यह फाइलें डाउनलोड करता है, उसे सीमित करता है।
  • -b : लॉग आउट करने के बाद भी जारी रहता है।

ये मेरे द्वारा उपयोग किए जाने वाले परम हैं। जब चीजें गलत हो जाती हैं तो मैं भी -c(या --continue) विकल्प जोड़ता हूं और मुझे प्रक्रिया को फिर से शुरू करना होगा।
kub1x


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.