12

मैं एक वेबसाइट का स्थानीय दर्पण बनाने के लिए wget का उपयोग करने की कोशिश कर रहा हूं। लेकिन मुझे पता चल रहा है कि मुझे सभी लिंकिंग पेज नहीं मिल रहे हैं।

यहाँ वेबसाइट है

http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/

मैं उन सभी पृष्ठों को नहीं चाहता जो इसके साथ शुरू होते हैं web.archive.org, लेकिन मैं उन सभी पृष्ठों को चाहता हूं जो इसके साथ शुरू होते हैं http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/।

जब मैं उपयोग करता हूं wget -r, तो मेरी फ़ाइल संरचना में मैं पाता हूं

web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html,

लेकिन मेरे पास सभी फाइलें नहीं हैं जो इस डेटाबेस का हिस्सा हैं, जैसे

web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html.

शायद क्रैक बेहतर कर सकता है, लेकिन अभी यह बहुत ज्यादा हथियाने वाला है।

तो, किस माध्यम से इंटरनेट आर्काइव वेबैक मशीन से एक संग्रहीत वेबसाइट की स्थानीय प्रति हड़पना संभव है ?

— user695322
स्रोत

आदमी! मैंने ठीक उसी पृष्ठ को मिरर करने की कोशिश की (और वास्तव में क्रोधित हो गया कि मैंने ऐसा तब नहीं किया था जब मूल साइट अभी भी ऑनलाइन थी, जो कि बहुत आसान थी)। मुझे लगता है कि एक समस्या यह है, कि 20110722080716स्नैपशॉट के तहत सभी फाइलें सुलभ नहीं हैं , इसलिए wget का -npविकल्प मदद नहीं करेगा।

— मैपी

क्या आपने मैन्युअल रूप से जाँच की है कि लापता पृष्ठ वास्तव में संग्रहीत हैं? Archive.org हमेशा हर एक पेज को संग्रहीत नहीं करता है।

— नाइट्रो 2k01

20

सहायक होते समय, पूर्व प्रतिक्रियाएँ संक्षिप्त रूप से, मज़बूती से, और बार-बार अंतर्निहित प्रश्न को हल करने में विफल होती हैं। इस पोस्ट में, हम संक्षेप में प्रत्येक के साथ कठिनाइयों का विस्तार करते हैं और फिर एक मामूली- httrackआधारित समाधान प्रदान करते हैं।

पृष्ठभूमि

हालांकि इससे पहले कि हम, mpy की अच्छी तरह से लिखित प्रतिक्रिया पर विचार करें। H [is | er] उदास रूप से उपेक्षित पद पर, Mpy ने सख्ती से वेबैक मशीन के अस्पष्ट (और ईमानदारी से मोटे तौर पर) अभिलेखीय योजना के दस्तावेज बनाए ।

आश्चर्यजनक रूप से, यह सुंदर नहीं है। एकल निर्देशिका में संग्रहणीय साइटों के बजाय, वेकबैक मशीन एक एकल साइट को दो या अधिक संख्यात्मक रूप से पहचाने जाने योग्य निर्देशिकाओं में फैलाती है। कहने का तात्पर्य यह है कि यह मिररिंग एक पर्याप्त समझ होगी।

इस योजना द्वारा प्रस्तुत भयानक नुकसान को समझना पूर्व समाधानों की अपर्याप्तता को समझना महत्वपूर्ण है। चलो इसके साथ चलो, हम करेंगे?

पिछला समाधान 1: wget

संबंधित स्टैकऑवरफ्लो प्रश्न "वेकबैकमैच से पुरानी वेबसाइट को पुनर्प्राप्त करें" इस संबंध में शायद सबसे खराब अपराधी है, wgetजो वेबैक मिररिंग के लिए सिफारिश कर रहा है। स्वाभाविक रूप से, यह सिफारिश मौलिक रूप से गैर जरूरी है।

जटिल बाहरी URL पुनर्लेखन (उदाहरण के लिए Privoxy) की अनुपस्थिति में, wgetमज़बूती से वेबैक-संग्रहीत साइटों का उपयोग नहीं किया जा सकता है। "प्रॉब्लम 2 + सॉल्यूशन" के तहत खसखस विवरण के रूप में , जो भी मिररिंग टूल आप चुनते हैं, वह आपको गैर-संक्रमणीय रूप से केवल लक्ष्य साइट से संबंधित URL डाउनलोड करने की अनुमति देता है । डिफ़ॉल्ट रूप से, अधिकांश मिररिंग टूल ट्रांज़िटली सभी टारगेट साइट और उस साइट से जुड़ी साइट्स दोनों से संबंधित डाउनलोड करते हैं - जो कि, सबसे खराब स्थिति में, "संपूर्ण इंटरनेट।"

एक ठोस उदाहरण क्रम में है। उदाहरण डोमेन को मिरर करते समय kearescue.com, आपके मिररिंग टूल को यह करना होगा :

सभी URL मिलान शामिल करें https://web.archive.org/web/*/http://kearescue.com। ये लक्ष्य साइट द्वारा प्रदान की गई संपत्ति हैं (उदाहरण के लिए, https://web.archive.org/web/20140521010450js_/http_/kearescue.com/media/system/js/core.js)।
अन्य सभी URL को छोड़ दें। ये अन्य साइटों द्वारा प्रदान की गई संपत्ति हैं जो केवल लक्ष्य साइट (जैसे, https://web.archive.org/web/20140517180436js_/https_/connect.facebook.net/en_US/all.js) से जुड़ी हुई हैं ।

इस तरह के यूआरएल को बाहर करने में विफल रहने से आमतौर पर सभी या अधिकांश इंटरनेट को खींचा जाता है, जिस समय साइट को संग्रहीत किया गया था, विशेष रूप से बाहरी होस्ट की गई परिसंपत्तियों (उदाहरण के लिए, YouTube वीडियो) को एम्बेड करने वाली साइटों के लिए।

यह बुरा होगा। जबकि wget करता है एक कमांड लाइन प्रदान करते हैं --exclude-directoriesएक या अधिक URL मिलान बाहर रखा जाना पैटर्न को स्वीकार करने का विकल्प, ये हैं नहीं सामान्य प्रयोजन नियमित अभिव्यक्ति; वे सरलीकृत ग्लब्स हैं जिनका *सिंटैक्स शून्य या अधिक वर्णों को छोड़कर/ मेल खाता है । चूंकि बहिष्कृत किए जाने वाले URL में मनमाने ढंग से कई /वर्ण होते हैं , इसलिए इन URL को बाहर करने के लिए उपयोग wget नहीं किया जा सकता है और इसलिए इनका उपयोग वेबैक-संग्रहीत साइटों को मिरर करने के लिए नहीं किया जा सकता है। अवधि। दुर्भाग्यपूर्ण कहानी का अंत।

यह मुद्दा कम से कम 2009 से सार्वजनिक रिकॉर्ड पर है। इसे अभी तक हल नहीं किया गया है। आगे!

पिछला समाधान 2: स्क्रैपबुक

प्रिंज़ अनुशंसा करता है ScrapBook, एक फ़ायरफ़ॉक्स प्लगइन। एक फ़ायरफ़ॉक्स प्लगइन।

शायद आप सभी को पता होना चाहिए था। जबकि ScrapBookकी Filter by String...कार्यक्षमता करता है पता ऊपर उल्लिखित "समस्या 2 + समाधान," यह करता है नहीं बाद में "समस्या 3 + समाधान" को संबोधित - अर्थात्, बाहरी डुप्लिकेट की समस्या।

यह संदेहास्पद है कि क्या ScrapBookपूर्व समस्या को पर्याप्त रूप से संबोधित किया गया है। जैसा कि खस्ता मानते हैं:

हालांकि साइट को पूरी तरह से हथियाने के लिए स्क्रैपबुक अब तक विफल रहा ...

अविश्वसनीय और अत्यधिक सरलीकृत समाधान गैर-समाधान हैं। आगे!

पिछला समाधान 3: wget + Privoxy

mpy तो एक मजबूत समाधान दोनों प्रदान करता है wgetऔर Privoxy। जबकि wget है यथोचित कॉन्फ़िगर करने के लिए सरल, Privoxyकुछ भी लेकिन उचित है। या सरल है।

ठीक से स्थापित करने, कॉन्फ़िगर करने और उपयोग Privoxyकरने की असंभव तकनीकी बाधा के कारण , हमारे पास अभी तक mpy के समाधान की पुष्टि करने के लिए नहीं है । इसे एक स्केलेबल, मजबूत तरीके से काम करना चाहिए । प्रवेश में आने वाली बाधाओं को देखते हुए, यह समाधान संभवतः बड़े पैमाने पर स्वचालन के लिए उपयुक्त है, औसत वेबमास्टर की तुलना में छोटे से मध्यम स्तर की साइटों को पुनर्प्राप्त करने का प्रयास।

क्या wget+ Privoxyदेखने लायक है? पूर्ण रूप से। लेकिन अधिकांश सुपरसर्स बेहतर सरल, अधिक आसानी से लागू होने वाले समाधानों द्वारा सेवित हो सकते हैं।

नया समाधान: रिक्ट्राक

दर्ज करें httrack, एक कमांड-लाइन उपयोगिता जो wgetकार्यक्षमता के दर्पण के सुपरसेट को कार्यान्वित कर रही है। httrackपैटर्न-आधारित URL बहिष्करण और सरलीकृत साइट पुनर्गठन दोनों का समर्थन करता है । पूर्व में खसखस "समस्या 2 + समाधान" हल करता है; उत्तरार्द्ध, "समस्या 3 + समाधान।"

नीचे दिए गए सार उदाहरण में, प्रतिस्थापित करें:

${wayback_url}शीर्ष-स्तरीय निर्देशिका के URL द्वारा आपकी लक्ष्य साइट (जैसे, 'https://web.archive.org/web/20140517175612/http://kearescue.com') की संपूर्णता को संग्रहीत किया जाता है ।
${domain_name}${wayback_url}उपसर्ग http://(जैसे, 'kearescue.com') को छोड़कर मौजूद एक ही डोमेन नाम से ।

ये रहा। स्थापित करें httrack, एक टर्मिनल विंडो खोलें, cdजिस स्थानीय निर्देशिका के लिए आप अपनी साइट को डाउनलोड करना चाहते हैं, और निम्न कमांड चलाएं:

httrack\
    ${wayback_url}\
    '-*'\
    '+*/${domain_name}/*'\
    -N1005\
    --advanced-progressinfo\
    --can-go-up-and-down\
    --display\
    --keep-alive\
    --mirror\
    --robots=0\
    --user-agent='Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5'\
    --verbose

पूरा होने पर, वर्तमान निर्देशिका में प्रत्येक URL के लिए एक उपनिर्देशिका होनी चाहिए जो उस URL से प्रतिबिंबित हो। इसमें आमतौर पर कम से कम शामिल हैं:

css, सभी सीएसएस स्टाइलशीट से युक्त।
html, जिसमें सभी HTML पृष्ठ प्रतिबिंबित हैं।
js, जिसमें सभी जावास्क्रिप्ट शामिल हैं।
ico, एक दर्पण युक्त favicon युक्त।

चूंकि httrackइस संरचना को प्रतिबिंबित करने के लिए सभी डाउनलोड की गई सामग्री को आंतरिक रूप से फिर से लिखता है, इसलिए आपकी साइट अब बिना किसी संशोधन के ब्राउज़ करने योग्य होनी चाहिए। यदि आपने समय-समय पर उपरोक्त कमांड को रोक दिया है और डाउनलोड करना जारी रखना चाहते हैं, तो --continueविकल्प को उसी कमांड और रिट्रीट में जोड़ें।

बस। कोई बाहरी विरोधाभास, त्रुटि-प्रवण URL पुनर्लेखन, या नियम-आधारित प्रॉक्सी सर्वर की आवश्यकता नहीं है।

आनंद लें, साथी सुपरसर्स।

— सेसिल करी
स्रोत

मुझे यह सुनकर खुशी हुई कि कम से कम एक व्यक्ति ने मेरे उत्तर को अच्छी तरह से पढ़ा। और आपके आगे के विश्लेषण और क्रैक समाधान के लिए धन्यवाद। +1

— एमपी

1

सॉटक्रैक सॉल्यूशन एकदम सही था, आपका बहुत-बहुत धन्यवाद!

— क्रिसचिनचिला

खुशी है कि मामूली सहायता के लिए, दोस्तों। यह देखते हुए कि कैसे वीभत्स और छल के इस टेपेस्ट्री को भयंकर रूप से भयावह किया गया था, मुझे सिर्फ अपने निष्कर्षों को साझा करना था ।

— सेसिल करी

दर हस्तांतरण की सीमा को हटाने के लिए इन मापदंडों को जोड़ें: - परिवर्तनीय-सुरक्षा-सीमाएँ - max-rate = 0

— Oswaldo

7

दुर्भाग्य से कोई भी उत्तर एक संग्रहीत वेबसाइट से एक पूर्ण दर्पण बनाने की समस्या को हल करने में सक्षम नहीं थे (प्रत्येक फ़ाइल को दर्जनों बार दोहराए बिना)। इसलिए मैंने एक और तरीका अपनाया। हैक किया गया महत्वपूर्ण शब्द है क्योंकि मेरा समाधान न तो एक सामान्य समाधान है और न ही बहुत सरल (पढ़ें: कॉपी और पेस्ट) एक है। मैं प्रयोग किया जाता Privoxy प्रॉक्सी सर्वर फ़ाइलों के पुनर्लेखन के लिए ऑन-द-मक्खी wget साथ मिरर जबकि।

लेकिन पहले, वेबैक मशीन से मिररिंग के बारे में इतना मुश्किल क्या है ?

समस्या 1 + समाधान

Wayback टूलबार इंटरेक्टिव उपयोग के लिए आसान है, लेकिन हो सकता है कि वेग के साथ हस्तक्षेप करें। तो इसे एक Privateoxy फिल्टर नियम से छुटकारा पाएं

FILTER: removewaybacktoolbar remove Wayback toolbar
s|BEGIN WAYBACK TOOLBAR INSERT.*END WAYBACK TOOLBAR INSERT|Wayback Toolbar removed|s

समस्या 2 + समाधान

मैं पूरी साइट पर कब्जा करना चाहता था, इसलिए एक बहुत छोटे पुनरावृत्ति गहराई की आवश्यकता थी। लेकिन मैं पूरे सर्वर को क्रॉल नहीं करना चाहता। आमतौर पर आप उस उद्देश्य के लिए wget के नो-पैरेंट विकल्प -npका उपयोग करते हैं । लेकिन वह यहां काम नहीं करेगा, क्योंकि आप पाना चाहते हैं

http://web.archive.org/web/ 20110722080716 / http: //cst-www.nrl.navy.mil/lattice/struk/hcp.html

लेकिन

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

(रास्तों में बदले हुए टाइमस्टैम्प पर ध्यान दें)। Omitting -npतक रेंगने की इच्छा खत्म हो जाएगी (...)http://cst-www.nrl.navy.mil, और अंत में पूरी navi.milसाइट पुनः प्राप्त होगी । मैं निश्चित रूप से ऐसा नहीं चाहता! इसलिए यह फ़िल्टर -npवायबैक मशीन के साथ व्यवहार का अनुकरण करने की कोशिश करता है :

FILTER: blocknonparentpages emulate wget -np option
s|/web/([0-9].*)/http://cst-www.nrl.navy.mil/lattice/|THIS_IS_A_GOOD_$1_ADDRESS|gU
s|/web/(.*)/http(.*)([" ])|http://some.local.server/404$3|gU
s|THIS_IS_A_GOOD_(.*)_ADDRESS|/web/$1/http://cst-www.nrl.navy.mil/lattice/|gU

मैं इसे वाक्य रचना में खोदने के लिए एक अभ्यास के रूप में छोड़ दूँगा। क्या इस फिल्टर करता है वह इस प्रकार है: यह की तरह सभी वेबैक यूआरएल की जगह http://web.archive.org/web/20110801041529/http://www.nrl.navy.mil/के साथ http://some.local.server/404लंबे समय के रूप के रूप में वे करते नहीं होते हैं http://cst-www.nrl.navy.mil/lattice/।

आपको एडजस्ट करना होगा http://some.local.server/404। यह 404 त्रुटि को भेजने के लिए है। संभवत: प्राइवेटोक्सी अधिक सुरुचिपूर्ण कर सकता है। हालांकि, मेरे लिए सबसे आसान तरीका एक स्थानीय http सर्वर पर एक गैर-मौजूद पृष्ठ के लिंक को फिर से लिखना था, इसलिए मैं इस पर अटक गया।

और, यदि आप भी समायोजित करने की आवश्यकता दोनों आवृत्तियां की http://cst-www.nrl.navy.mil/lattice/साइट पर आप दर्पण करना चाहते हैं प्रतिबिंबित करने के लिए।

समस्या 3 + समाधान

और अंत में एक पृष्ठ के कुछ संग्रहित संस्करण दूसरे स्नैपशॉट में पेज से लिंक हो सकते हैं। और वह अभी तक एक और एक है। और इतने पर ... और आप एक ही पृष्ठ के बहुत सारे स्नैपशॉट के साथ समाप्त हो जाएंगे - और जब तक यह सभी स्नैपशॉट नहीं ले लेता है, तब तक और कभी भी खत्म होने का प्रबंधन नहीं करेगा । मैं वास्तव में ऐसा नहीं चाहता हूँ, न ही! यहां यह बहुत मदद करता है, कि वेबैक मशीन बहुत स्मार्ट है। आप एक फ़ाइल का अनुरोध कर सकते हैं

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

भले ही यह 20110801041529स्नैपशॉट में शामिल नहीं है । यह स्वचालित रूप से आपको सही पर पुनर्निर्देशित करता है:

http://web.archive.org/web/ 20110731225728 / http: //cst-www.nrl.navy.mil/lattice/struk/a_f.html

इसलिए, सबसे हाल के एक के लिए सभी स्नैपशॉट को फिर से लिखने के लिए एक और प्राइवेटॉक्सी फ़िल्टर

FILTER: rewritewaybackstamp rewrite Wayback snapshot date
s|/([0-9]{14})(.{0,3})/|/20120713212803$2/|g

प्रभावी रूप से प्रत्येक 14-अंकीय संख्या को संलग्न करने के /.../साथ प्रतिस्थापित किया जाता है 20120713212803(अपनी इच्छित साइट के सबसे हाल के स्नैपशॉट में समायोजित करें)। यह एक समस्या हो सकती है यदि साइट संरचना में ऐसे नंबर हैं जो वेबैक मशीन से उत्पन्न नहीं होते हैं। सही नहीं है, लेकिन स्ट्रुक्टुरटिपेन साइट के लिए ठीक है ।

उस के बारे में अच्छी बात यह है कि, उस नए स्थान को अनदेखा कर देता है, जिसे ऊपर दिए गए परिक्षण में - फ़ाइल में पुनर्निर्देशित किया जाता है और फ़ाइल को सहेजता है web.archive.org/web/20110801041529/http://cst-www.nrl.navy.mil/lattice/struk/a_f.html।

मिरर को आर्काइव की गई साइट पर इस्तेमाल करना

तो, इन privoxy फिल्टर (में परिभाषित के साथ अंत में user.filter) में सक्षम user.actionके माध्यम से

{ +filter{removewaybacktoolbar} +filter{blocknonparentpages} +filter{rewritewaybackstamp} }
web.archive.org

आप हमेशा की तरह wget का उपयोग कर सकते हैं। प्रॉक्सी का उपयोग करना न भूलें

export http_proxy="localhost:8118"
wget -r -p -k -e robots=off http://web.archive.org/web/20120713212803/http://cst-www.nrl.navy.mil/lattice/index.html

मैंने इन विकल्पों का इस्तेमाल किया, लेकिन -mकाम भी करना चाहिए। आप फ़ोल्डरों के साथ समाप्त करेंगे

20120713212803
20120713212803cs_
20120713212803im_
20120713212803js_

जैसे कि वेबैक मशीन छवियों ( im_), स्टाइल शीट ( cs_) आदि को अलग करती है , मैंने सब कुछ एक साथ मिला दिया और बदसूरत रिश्तेदार लिंक ( ../../../../20120713212803js_/http:/cst-www.nrl.navy.mil/lattice) को बदलने के लिए कुछ सेड जादू का इस्तेमाल किया । लेकिन यह वास्तव में आवश्यक नहीं है।

— MPY
स्रोत

1

यह एक अमूल्य जवाब था। वेकबैक मशीन की आंतरिक साइट संरचना का आपका सटीक विच्छेदन नैकक्रैक- आधारित समाधान के लिए महत्वपूर्ण था जिसे मैंने अंततः ठोकर खाई। आप रॉक, mpy।

— सेसिल करी

5

wget

-पृष्ठ-आवश्यकताएं
इस विकल्प के कारण Wget उन सभी फाइलों को डाउनलोड कर सकता है जो किसी दिए गए HTML पृष्ठ को ठीक से प्रदर्शित करने के लिए आवश्यक हैं। इसमें ऐसी चीजें शामिल हैं जैसे कि अंतर्निर्मित छवियां, ध्वनियां और संदर्भित स्टाइलशीट।

आमतौर पर, किसी एकल HTML पृष्ठ को डाउनलोड करते समय, किसी भी अपेक्षित दस्तावेज को इसे ठीक से प्रदर्शित करने के लिए आवश्यक हो सकता है, डाउनलोड नहीं किया जाता है। -L के साथ -r का उपयोग करने से मदद मिल सकती है, लेकिन चूंकि Wget बाहरी और अंतर्निर्मित दस्तावेज़ों के बीच सामान्य रूप से अंतर नहीं करता है, इसलिए आमतौर पर "लीफ डॉक्यूमेंट्स" को छोड़ दिया जाता है जो उनकी आवश्यकता को याद कर रहे हैं।

उदाहरण के लिए, दस्तावेज़ 1.html में एक "" टैग सन्दर्भ 1.gif और "" टैग बाहरी दस्तावेज़ 2.html की ओर इंगित करता है। यह कहें कि 2.html समान है लेकिन इसकी छवि 2.gif है और यह 3.html से लिंक करता है। यह कहें कि यह कुछ मनमाने ढंग से उच्च संख्या तक जारी है।

-m --mirror
मिररिंग के लिए उपयुक्त विकल्पों को चालू करें। यह विकल्प पुनरावर्तन और समय-स्टैम्पिंग को चालू करता है, अनंत पुनरावृत्ति की गहराई निर्धारित करता है और एफ़टीपी निर्देशिका लिस्टिंग को रखता है। यह वर्तमान में -r -N -l inf-no-remove-लिस्टिंग के बराबर है।

ध्यान दें कि Wget ऐसा व्यवहार करेगा जैसे कि -r निर्दिष्ट किया गया था, लेकिन केवल वही पृष्ठ और उसकी आवश्यकताएं डाउनलोड की जाएंगी। उस पेज से बाहरी दस्तावेजों के लिंक का पालन नहीं किया जाएगा। वास्तव में, एक पृष्ठ को डाउनलोड करने के लिए और उसके सभी अपेक्षित (भले ही वे अलग-अलग वेबसाइटों पर मौजूद हों), और सुनिश्चित करें कि स्थानीय रूप से बहुत कुछ प्रदर्शित होता है, यह लेखक -p के अलावा कुछ विकल्पों का उपयोग करना पसंद करता है:

wget -E -H -k -K -p http://<site>/<document>

SO wget -E -H -k -K -p http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice आपके लिए आपका सबसे अच्छा सूट होगा। लेकिन मैं एक और उपकरण, एक firefoxविस्तार की सलाह देता हूंscrapbook

स्क्रैपबुक

स्क्रैपबुक एक फ़ायरफ़ॉक्स एक्सटेंशन है, जो आपको वेब पेजों को सहेजने और संग्रह को आसानी से प्रबंधित करने में मदद करता है। मुख्य विशेषताएं लपट, गति, सटीकता और बहु-भाषा समर्थन हैं। प्रमुख विशेषताएं हैं:
* वेब पेज सहेजें * वेब पेज की
स्निपेट सहेजें
* वेब साइट सहेजें
* बुकमार्क के रूप में उसी तरह से संग्रह को व्यवस्थित करें
* पूर्ण पाठ खोज और संग्रह की त्वरित फ़िल्टरिंग खोज
* एकत्रित वेब पेज का संपादन
* पाठ / HTML ओपेरा के नोट्स जैसा दिखने वाला फीचर संपादित करें

किसी साइट को दर्पण कैसे
करें स्क्रैपबुक स्थापित करें और फ़ायरफ़ॉक्स पुनः आरंभ करें

ब्राउज़र में लोड पेज [वेब पेज मिरर किया जाना है]
पेज पर राइट क्लिक करें -> पेज को इस रूप में सहेजें ...
गहराई से सहेजें और प्रेस सहेजें से स्तर का चयन करें
फ़िल्टर से चुनें Restrict to Drirectory/Domain

इसे पूरा करने के लिए मिररिंग के लिए प्रतीक्षा करें। मिरर करने के बाद आप ScrapBookमेन्यू से वेब साइट को ऑफलाइन एक्सेस कर सकते हैं ।

— प्रिंज़
स्रोत

हालांकि स्क्रैपबुक पूरी तरह से साइट को हथियाने में विफल रही, लेकिन यह अन्य सुझावों की तुलना में संभावित समाधान के करीब थी। विशेष रूप से स्ट्रिंग द्वारा इसका फ़िल्टर ... होस्ट / डोमेन द्वारा फ़िल्टर करने की तुलना में विकल्प अधिक उपयोगी था। इसलिए, मैं तुम्हें करने के लिए इनाम अवार्ड:)

— MPY

0

नीचे दिए गए आदेश से सावधान रहें क्योंकि यह बहुत पकड़ लेता है। 'एल' के बाद 1 साइट पर लिंक के लिए सभी पृष्ठों को हथियाने के लिए कहता है जो 1 स्तर गहरे हैं। यदि आप चाहते हैं कि यह मकड़ी को 2 में गहरा परिवर्तन दे, लेकिन यह कभी समाप्त नहीं हो सकता क्योंकि यह एक पाश में फंस सकता है।

wget -rHpkl 1 -e robots=off http://www.example.com/

मुझे यकीन नहीं है कि साइट के किन हिस्सों को आप रखना चाहते हैं और किन हिस्सों की आपको परवाह नहीं है, लेकिन आपको शायद सफेद सूची और / या साइट के विभिन्न हिस्सों को ब्लैकलिस्ट करना चाहिए ताकि केवल वही प्राप्त हो जो आप चाहते हैं और खुद को रोक सकें। आर्काइव.ऑर्ग या इंटरनेट के सभी डाउनलोड करना।

-D www.examle.com,www.another.example.comकेवल उन डोमेन को श्वेतसूची में उपयोग करें जिन्हें आप चाहते हैं या --exclude-domains www.examle.com,www.another.example.com जो आप नहीं चाहते हैं उन्हें ब्लैकलिस्ट करने के लिए उपयोग करें।

— माइकल यासुमोतो
स्रोत

धन्यवाद, लेकिन सफेद / ब्लैकलिस्टिंग के साथ समस्या यह है कि सभी संग्रहीत वेबसाइट web.archive.orgहोस्ट से आती हैं । मैं सब कुछ दर्पण करना चाहता हूं कि wget -npमूल साइट ऑनलाइन होने के बाद क्या प्रतिबिंबित होगा। -lया तो बहुत मदद नहीं करता है, क्योंकि इसे 3 या 4 तक बढ़ाना है, इसलिए वेबसाइट पदानुक्रम को बहुत अधिक बढ़ा देता है।

— एमपी

0

इंटरनेट आर्काइव के लिए URL के प्रारूप में वह दिनांक और समय शामिल है, जो साइट को संग्रहीत किया गया था। अंतरिक्ष परिसंपत्तियों को बचाने के लिए जो नहीं बदले हैं उन्हें किसी साइट के पिछले संस्करण से जोड़ा जाता है।

उदाहरण के लिए इस url में http://web.archive.org/web/20000229123340/http://www.yahoo.com/ साइट क्रॉल होने की तिथि 29 फरवरी, 2000 को 12:33 और 40 सेकंड थी।

तो आप सभी को http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/उस पर शुरू करने की जरूरत है, लेकिन यह भी सभी से जुड़ी संपत्ति हड़पने के लिए http://web.archive.org/web/*/http://cst-www.nrl.navy.mil/lattice/।

— ब्रायन
स्रोत

वास्तव में, और यही समस्या है। मान लें कि पृष्ठ A से B. लिंक। तो, वर्तमान संस्करण A, पुराने संस्करण B से लिंक करता है। लेकिन B में A का लिंक भी शामिल है। इसलिए A का पुराना संस्करण पुनः प्राप्त हो जाता है, और पुराने संस्करण के लिए फिर से लिंक होता है। यह (एक (आवश्यक) 4 की क्रॉल डेप्थ पर) परिणाम की ओर ले जाता है, कि आप इंडेक्स पेज के दर्जनों संस्करणों के साथ समाप्त होते हैं, लेकिन सभी आवश्यक फाइलों पर नहीं।