यहाँ वास्तव में 2 मुद्दे हैं:
robots.txt
आपकी साइट पर विल आपकी साइट को क्रॉल करने के तरीके को अस्वीकार (ब्लॉक) कर देगा।
- Wayback आपकी साइट को क्रॉल करेगा।
बिंदु # 1 के लिए:
जैसा कि दूसरों ने कहा है, robots.txt के लिए सही प्रविष्टि है:
User-agent: ia_archiver
Disallow:
ध्यान रखें कि Wayback के लिए आपको कुछ समय लग सकता है।
यह देखने के लिए कि क्या robots.txt
आपकी साइट पर वेबैक आपकी साइट को क्रॉल करने की अनुमति देगा :
- इस URL पर जाएं : https://archive.org/web/
- पृष्ठ के शीर्ष पर स्थित बॉक्स में, अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और
"Browse History"
बटन पर क्लिक करें।
- या, "सेव पेज नाउ" (वर्तमान में दाईं ओर नीचे) के नीचे स्थित बॉक्स में, और अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और
"Save Page"
बटन पर क्लिक करें।
इस बिंदु पर, आपको 3 चीजों में से 1 को देखना चाहिए:
- आपको एक त्रुटि संदेश दिखाई देगा जो बताता है कि "robots.txt" के कारण वेबैक उस साइट के पृष्ठों तक नहीं पहुँच सकता है।
- आप अपनी साइट पर पृष्ठ के लिए ऐतिहासिक बचत बिंदुओं का "कैलेंडर" देखेंगे। इस स्थिति में, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।
- या, आपको एक संदेश दिखाई देगा जो यह बताता है कि वेबैक में उस पृष्ठ का संग्रह नहीं है, और पेजबैक में पेज जोड़ने के लिए लिंक पर क्लिक करने की पेशकश है। इस मामले में भी, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।
अब, बिंदु # 2 के लिए:
क्या Wayback आपकी साइट को क्रॉल करेगा ?
सिर्फ इसलिए कि आप अनुमति दें वेबैक आपकी साइट को क्रॉल, इसका मतलब यह नहीं है कि वे (कभी) आपकी साइट को क्रॉल जाएगा।
वेकबैक एफएक्यू (जोर जोड़ा) के अनुसार:
हमारे बहुत से संग्रहीत वेब डेटा हमारे अपने क्रॉल से या एलेक्सा इंटरनेट के क्रॉल से आते हैं। न तो संगठन के पास "अब मेरी साइट क्रॉल है!" प्रस्तुत करने की प्रक्रिया। इंटरनेट आर्काइव के क्रॉल उन साइटों को ढूंढते हैं जो अन्य साइटों से अच्छी तरह से जुड़ी हुई हैं । यह सुनिश्चित करने का सबसे अच्छा तरीका है कि हम आपकी वेब साइट को यह सुनिश्चित करें कि यह ऑनलाइन निर्देशिकाओं में शामिल है और इसी तरह की / संबंधित साइटें आपको लिंक करती हैं।
Alexa इंटरनेट क्रॉल करने के लिए साइटों की खोज करने के लिए अपने स्वयं के तरीकों का उपयोग करता है। यह मुफ्त अलेक्सा टूलबार को स्थापित करने और उस साइट पर जाने के लिए सहायक हो सकता है जिसे आप क्रॉल करना चाहते हैं ताकि यह सुनिश्चित हो सके कि वे इसके बारे में जानते हैं।
साइट को क्रॉल करने के बावजूद, आपको यह सुनिश्चित करना चाहिए कि आपकी साइट के 'robots.txt' नियम और इन-पेज META रोबोट निर्देश क्रॉलर को आपकी साइट से बचने के लिए न कहें।
अपडेट: 09-मई-2017
अन्य लोगों ने टिप्पणियों / उत्तरों को छोड़ दिया है जो दर्शाता है कि Archive.org अब robots.txt का सम्मान नहीं करता है। शायद यह एक "काम-में-प्रगति" है और यह अंततः मामला होगा, लेकिन मैंने अभी तक इस नए व्यवहार को नहीं देखा है।
इसके लिए मामला इस लेख से लगता है: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE by archiveteam.org
। हालांकि उस पेज में बहुत कम अगर "Robots.txt" के बारे में कुछ भी अच्छा है, तो यह कहीं भी उल्लेख नहीं करता है कि Archive.org अब robots.txt का सम्मान नहीं करेगी।
नोट का भी: उस लेख को होस्ट किया गया है archiveteam.org
, जो निश्चित रूप से नहीं है archive.org
, और मुझे यकीन नहीं है कि archive.org
और के बीच कोई (आधिकारिक) संबंध है archiveteam.org
।
वास्तव में, आर्काइव टीम के बारे में यह पृष्ठ , ( और जोर दिया गया) के बीच अंतर घोषित करता है :archive.org
archive.org
archiveteam.org
2009 में गठित, आर्काइव टीम ( आर्काइव.ऑर्क -इट टीम के साथ भ्रमित नहीं होना ) इतिहास और डिजिटल विरासत की खातिर तेजी से मरने वाली या हटाई गई वेबसाइटों की प्रतियों को सहेजने के लिए समर्पित एक दुष्ट कट्टरपंथी सामूहिक है। ...
किसी भी मामले में, मैंने इसे एक कोशिश देने का फैसला किया, और मैंने पाया कि, कम से कम इस समय, आर्काइव.ऑर्गिली स्टिल्स का सम्मान करता है।
- मुझे eBay पर एक यादृच्छिक आइटम मिला: आइटम #: 131795294232
- बेची गई वस्तुओं को देखने के लिए क्लिक करें:
- "बेचा गया आइटम" पृष्ठ खुलता है: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 क्लिपबोर्ड के लिंक की प्रतिलिपि बनाएँ।
- गोटो web.archive.org , और ईबे से लिंक पेस्ट करें।
- आप देखेंगे कि
archive.org
इंगित करता है कि "पेज robots.txt के कारण प्रदर्शित नहीं किया जा सकता है।"
इसलिए, इस समय, मैं असंबद्ध रहता हूं, लेकिन मैं गलत साबित होना पसंद करूंगा ... यह सच होगा तो बहुत अच्छा होगा।