पूरी वेबसाइट को कैसे आर्काइव करें?

15

Wayback मशीन के माध्यम से एक पृष्ठ को बचाने के लिए मैं यहां जा सकता हूं:

http://web.archive.org/save/https://somewebsite.example.com/

मैं Wayback मशीन द्वारा पुन: वेबसाइट को कैसे संग्रहीत कर सकता हूं ?

कुछ परियोजना है जैसे कि wayback-machine-downloader, लेकिन मैं एक ऐसी सुविधा की तलाश कर रहा हूँ जो मुझे वेबसाइट को पुन: अपलोड करने की अनुमति दे।

archive.org

— kenorb
स्रोत

12

चूंकि वेबैक मशीन इस तरह की सुविधा प्रदान नहीं करती है, इसलिए मैंने कुछ वर्कअराउंड ढूंढे हैं।

सबसे पहले, वेबसाइट का उपयोग करके दर्पण wget, जैसे
```
wget -m https://example.com/
```
फिर curlसभी पृष्ठों को एक-एक करके संग्रहित करें , जिसे आपने डाउनलोड किया है।
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{ध्यान दें: आप बदल सकते हैं .htmlकरने के लिए .php, या फ़ाइलों के कुछ प्रकार शामिल हैं।}

— kenorb
स्रोत

यदि साइट एक्सटेंशन (जैसे html या php - जैसे SE सेटअप है) का उपयोग नहीं करती है, तो आप अपनी कमांड को कैसे अनुकूलित करते हैं?

— db

2

आप सभी फ़ाइलों को शामिल -name "*.html"करने के -type fलिए बदल सकते हैं ।

— केनोरब

क्वेरी पैरामीटर के साथ यह कैसे काम करता है?

— मैथिकल

6

यदि आप एक छोटी वेबसाइट को आर्काइव करना चाहते हैं, तो आर्काइव टीम आर्कबॉट , एक आईआरसी बॉट बनाए रखती है , जहाँ आप वेबसाइटों को क्रॉल करने का अनुरोध कर सकते हैं। आर्काइव टीम तब क्रॉल किए गए पृष्ठों को इंटरनेट आर्काइव की वेकबैक मशीन में जमा करेगी।

— फ्लक्स
स्रोत

यह अविश्वसनीय रूप से सहायक है।

— गाय

1

Wayback Machine संपूर्ण साइट को सबमिट करने का एक तरीका प्रदान नहीं करती है, केवल एक पृष्ठ जो आपने पहले ही पाया है। यह उनके Wayback मशीन FAQ के कुछ बिंदुओं पर छुआ गया है :

क्या मैं वेबैक मशीन में पेज जोड़ सकता हूँ?

पर https://archive.org/web किसी खास पृष्ठ एक समय बचाने के लिए "सहेजें पृष्ठ अब" सुविधा का उपयोग कर सकते हैं। यह वर्तमान में किसी भी भविष्य के क्रॉल में URL नहीं जोड़ता है और न ही यह उस एक पृष्ठ से अधिक बचाता है। यह कई पृष्ठों, निर्देशिकाओं या संपूर्ण साइटों को नहीं बचाता है ।

तथा

मैं अपनी साइट को वेकबैक मशीन में कैसे शामिल कर सकता हूं?

हमारे बहुत से संग्रहीत वेब डेटा हमारे अपने क्रॉल से या एलेक्सा इंटरनेट के क्रॉल से आते हैं। न तो संगठन के पास "अब मेरी साइट क्रॉल है!" प्रस्तुत करने की प्रक्रिया । इंटरनेट आर्काइव के क्रॉल उन साइटों को ढूंढते हैं जो अन्य साइटों से अच्छी तरह से जुड़ी हुई हैं। यह सुनिश्चित करने का सबसे अच्छा तरीका है कि हमें आपकी वेब साइट मिल जाए, यह सुनिश्चित करना है कि यह ऑनलाइन निर्देशिकाओं में शामिल है और इसी तरह की / संबंधित साइटें आपको लिंक करती हैं।

— जॉन सी
स्रोत

1

यह सवाल का जवाब नहीं है। सिर्फ इसलिए कि ऐसा करने का कोई आधिकारिक तरीका नहीं है, कार्य करना असंभव नहीं है। वास्तव में, यह बहुत आसान होना चाहिए कि वह एक स्क्रिप्ट को दोहराए जो लिंक को पुनरावर्ती जोड़ता है।

— db

@db, kenorb का उत्तर वही प्रतीत होता है जो आप पूछ रहे थे। संयोग से, यह उत्तर क्षण में मेरे लिए अधिक उपयोगी है, जैसा कि मैं अभी चाहता था कि The WaybackMachine अब मेरे लिए एक पृष्ठ पर कब्जा कर ले।

— cp.engr

1

आर्काइव.ऑर्ग का यह लेख एक सशुल्क सेवा का भी सुझाव देता है जो आपके लिए जितनी बार चाहे उतनी बार क्रॉलिंग करेगी:

एक आर्काइव-इट अकाउंट के लिए साइन अप करें

आर्काइव-यह इंटरनेट आर्काइव द्वारा प्रदान की जाने वाली एक सब्सक्रिप्शन सेवा है जो आपको बिना किसी तकनीकी विशेषज्ञता के अपनी रेंगने वाली परियोजनाएं चलाने की अनुमति देती है। हमें बताएं कि इसे क्रॉल करने के लिए क्या और कितनी बार क्रॉल करना है, और हम क्रॉल को निष्पादित करते हैं और परिणाम को वेकबैक मशीन में डालते हैं।

यह शायद वह नहीं है जो आप बाद में हैं, लेकिन कुछ व्यवसायों के लिए यह सेवा उपयोगी हो सकती है। मुझे लगता है कि यह आर्काइव.ऑर्ग को फंड करने में मदद करता है, जो अन्यथा नि: शुल्क है।

— Stason
स्रोत