आर्काइव.ऑर्गबैक मशीन से वेबसाइट कैसे डाउनलोड करें?


83

मैं आर्काइव.ओआरजी पर दी गई वेबसाइट के लिए सभी फाइलें प्राप्त करना चाहता हूं। कारणों में शामिल हो सकते हैं:

  • मूल लेखक ने अपनी वेबसाइट संग्रहीत नहीं की और यह अब ऑफ़लाइन है, मैं इससे सार्वजनिक कैश बनाना चाहता हूं
  • मैं किसी वेबसाइट का मूल लेखक हूं और कुछ सामग्री खो गया हूं। मैं इसे रिकवर करना चाहता हूं
  • ...

मैं उसको कैसे करू ?

यह ध्यान रखना कि आर्काइव.ऑर्गबैक मशीन बहुत खास है: वेबपेज लिंक केवल आर्काइव की ओर इशारा नहीं कर रहे हैं, बल्कि एक वेब पेज पर हैं जो अब नहीं हो सकता है। लिंक को अपडेट करने के लिए जावास्क्रिप्ट का उपयोग क्लाइंट-साइड में किया जाता है, लेकिन एक पुनरावर्ती wget जैसी चाल काम नहीं करेगी।


14
मैं एक ही मुद्दे पर आ गया हूं और मैंने एक मणि को कूट दिया है। स्थापित करने के लिए gem install wayback_machine_downloader:। जिस वेबसाइट को आप एक पैरामीटर के रूप में प्राप्त करना चाहते हैं, उसके आधार url के साथ wayback_machine_downloader चलाएं: wayback_machine_downloader http://example.comअधिक जानकारी: github.com/hartator/wayback_machine_downloader
Hartator

3
रूबी के लिए नए उपयोगकर्ताओं (win8.1 64bit मेरे लिए) के लिए एक कदम दर कदम, रूबी के लिए यहाँ है कि मैंने इसे बनाने के लिए क्या किया: 1) मैंने rubyinstaller.org/downloads स्थापित किया, फिर "rubyinstaller-2.2.3-x64 चलाएं .exe "2) ने जिप फ़ाइल को डाउनलोड किया github.com/hartator/wayback-machine-downloader/archive/… 3) मेरे कंप्यूटर में ज़िप को अनज़िप करें 4" रूबी के लिए प्रारंभ कमांड प्रॉम्प्ट "के लिए विंडोज़ स्टार्ट मेनू में खोज करें (होने के लिए) जारी)
एरब

3
5) github.com/hartator/wayback_machine_downloader (e .g: कॉपी पेस्ट के निर्देशों का पालन करें । इस "मणि स्थापित करें wayback_machine_downloader" प्रॉम्प्ट में दर्ज करें। हिट दर्ज करें और यह प्रोग्राम स्थापित करेगा ... फिर "उपयोग" दिशानिर्देशों) का पालन करें। 6) एक बार आपकी वेबसाइट पर कब्जा कर लेने के बाद आपको C: \ Users \ Yourusername \ वेबसाइटों में फाइलें मिलेंगी
Erb

जवाबों:


63

मैंने एक साइट को डाउनलोड करने के लिए अलग-अलग तरीकों की कोशिश की और आखिरकार मुझे वेकबैक मशीन डाउनलोडर मिल गया - जिसका उल्लेख हार्टेटर ने किया था (इसलिए सभी क्रेडिट उसके पास जाते हैं, कृपया), लेकिन मैंने बस उसकी टिप्पणी को सवाल पर ध्यान नहीं दिया। आपको समय बचाने के लिए, मैंने यहां एक अलग उत्तर के रूप में wayback_machine_downloader रत्न को जोड़ने का फैसला किया।

Http://www.archiveteam.org/index.php?title=Restoring पर साइट इन तरीकों की सूची देती है

  • वेबैक मशीन डाउनलोडर , वेबी मशीन से किसी भी वेबसाइट को डाउनलोड करने के लिए रूबी में छोटा टूल। मुक्त और खुला-स्रोत। मेरी पसंद!
  • वारिक - मुख्य साइट नीचे लगती है।
  • Wayback डाउनलोडर , एक सेवा जो आपकी साइट को Wayback मशीन से डाउनलोड करेगी और यहां तक ​​कि Wordpress के लिए एक प्लगइन भी जोड़ देगी। खाली नहीं।

मैंने php में, "वेपबैक डाउनलोडर", संसाधनों को डाउनलोड करने, लिंक को एडजस्ट करने, आदि को भी लिखा: gist.github.com/divinity76/85c01de416c541578782525807997fa6acf
hanshenrik

@ कॉमिक्स, आपके द्वारा लिंक किए गए पृष्ठ पर, एक आर्काइव टीम हड़प क्या है ??
पचेरियर

1
अक्टूबर 2018, वेकबैक मशीन डाउनलोडर अभी भी काम करता है।
वह ब्राजील के लड़के

@Pacerier यह आर्काइव टीम द्वारा उत्पादित (और आमतौर पर इंटरनेट का संग्रह के वेबैक मशीन में खिलाया) (के सेट) WARC फ़ाइलों का मतलब है, को देखने के archive.org/details/archiveteam
निमो

12

यह एक बाश शैल स्क्रिप्ट के साथ संयुक्तwget का उपयोग करके किया जा सकता है ।

विचार यह है कि वेकबैक मशीन की कुछ URL विशेषताओं का उपयोग करना है:

  • http://web.archive.org/web/*/http://domain/*http://domain/पुनरावर्ती से सभी सहेजे गए पृष्ठों को सूचीबद्ध करेगा । इसका उपयोग वेबपेजों में लिंक का पता लगाने के लिए पृष्ठ संख्याओं को डाउनलोड करने और बचने के लिए पृष्ठों की एक सूची बनाने के लिए किया जा सकता है। प्रत्येक लिंक के लिए, पहले संस्करण और अंतिम संस्करण की तारीख भी है।
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/pageवर्ष YYYY के लिए सभी संस्करण सूचीबद्ध करेंगे । उस पृष्ठ के भीतर, संस्करणों के लिए विशिष्ट लिंक मिल सकते हैं (सटीक टाइमस्टैम्प के साथ)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagehttp://domain/pageदिए गए टाइमस्टैम्प पर अनमॉडिफाइड पेज लौटाएगा । सूचना id_ टोकन।

किसी भी डोमेन से सब कुछ डाउनलोड करने के लिए स्क्रिप्ट बनाने के लिए ये मूल बातें हैं।


7
आपको वास्तव में संग्रह के लिए एपीआई का उपयोग करना चाहिए। इसके बजाय आर्काइव। ओएचईएल / राहबैक_एपीआई। एफपी विकिपीडिया मदद पृष्ठ संपादकों के लिए हैं, आम जनता के लिए नहीं। तो वह पृष्ठ चित्रमय इंटरफ़ेस पर केंद्रित है, जो इस कार्य के लिए अधिभूत और अपर्याप्त दोनों है।
निमो

संभवत: यह कहना आसान होगा कि URL (जैसे http://web.archive.org/web/19981202230410/http://www.google.com/) लें और id_"दिनांक संख्याओं" के अंत में जोड़ें । तब, आपको कुछ ऐसा मिलेगा http://web.archive.org/web/19981202230410id_/http://www.google.com/
हयूकाम

1
एक अजगर लिपि यहाँ भी मिल सकती है: gist.github.com/ingamedeo/…
Amedeo Baragiola

4

इस उद्देश्य के लिए विशेष रूप से डिज़ाइन किया गया एक उपकरण है, Warrick: https://code.google.com/p/warrick/

यह मेमेंटो प्रोटोकॉल पर आधारित है।


3
जहाँ तक मैं इसका इस्तेमाल करने में कामयाब रहा (मई 2017 में), यह अभी भी संग्रहीत करता है। यह Google / Yahoo कैश से दस्तावेज़ और चित्र प्राप्त करने का भी प्रयास करता है लेकिन पूरी तरह से विफल रहता है। Google कोड बंद होने के बाद से वारिक को कई बार GitHub पर क्लोन किया गया है, हो सकता है कि वहां कुछ बेहतर संस्करण हों।
ग्वेनेथ लेलेवेन

0

आप इसे आसानी से कर सकते हैं wget

wget -rc --accept-regex '.*ROOT.*' START

ROOTवेबसाइट का रूट URL कहां है और STARTशुरुआती URL है। उदाहरण के लिए:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

ध्यान दें कि आपको STARTURL के लिए वेब संग्रह के रैपिंग फ़्रेम को बायपास करना चाहिए । अधिकांश ब्राउज़रों में, आप पृष्ठ पर राइट-क्लिक कर सकते हैं और "केवल दिखाएँ यह फ़्रेम" चुनें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.