यहाँ वास्तव में 2 मुद्दे हैं:
robots.txtआपकी साइट पर विल आपकी साइट को क्रॉल करने के तरीके को अस्वीकार (ब्लॉक) कर देगा।
- Wayback आपकी साइट को क्रॉल करेगा।
बिंदु # 1 के लिए:
जैसा कि दूसरों ने कहा है, robots.txt के लिए सही प्रविष्टि है:
User-agent: ia_archiver
Disallow:
ध्यान रखें कि Wayback के लिए आपको कुछ समय लग सकता है।
यह देखने के लिए कि क्या robots.txtआपकी साइट पर वेबैक आपकी साइट को क्रॉल करने की अनुमति देगा :
- इस URL पर जाएं : https://archive.org/web/
- पृष्ठ के शीर्ष पर स्थित बॉक्स में, अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और
"Browse History"बटन पर क्लिक करें।
- या, "सेव पेज नाउ" (वर्तमान में दाईं ओर नीचे) के नीचे स्थित बॉक्स में, और अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और
"Save Page"बटन पर क्लिक करें।
इस बिंदु पर, आपको 3 चीजों में से 1 को देखना चाहिए:
- आपको एक त्रुटि संदेश दिखाई देगा जो बताता है कि "robots.txt" के कारण वेबैक उस साइट के पृष्ठों तक नहीं पहुँच सकता है।
- आप अपनी साइट पर पृष्ठ के लिए ऐतिहासिक बचत बिंदुओं का "कैलेंडर" देखेंगे। इस स्थिति में, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।
- या, आपको एक संदेश दिखाई देगा जो यह बताता है कि वेबैक में उस पृष्ठ का संग्रह नहीं है, और पेजबैक में पेज जोड़ने के लिए लिंक पर क्लिक करने की पेशकश है। इस मामले में भी, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।
अब, बिंदु # 2 के लिए:
क्या Wayback आपकी साइट को क्रॉल करेगा ?
सिर्फ इसलिए कि आप अनुमति दें वेबैक आपकी साइट को क्रॉल, इसका मतलब यह नहीं है कि वे (कभी) आपकी साइट को क्रॉल जाएगा।
वेकबैक एफएक्यू (जोर जोड़ा) के अनुसार:
हमारे बहुत से संग्रहीत वेब डेटा हमारे अपने क्रॉल से या एलेक्सा इंटरनेट के क्रॉल से आते हैं। न तो संगठन के पास "अब मेरी साइट क्रॉल है!" प्रस्तुत करने की प्रक्रिया। इंटरनेट आर्काइव के क्रॉल उन साइटों को ढूंढते हैं जो अन्य साइटों से अच्छी तरह से जुड़ी हुई हैं । यह सुनिश्चित करने का सबसे अच्छा तरीका है कि हम आपकी वेब साइट को यह सुनिश्चित करें कि यह ऑनलाइन निर्देशिकाओं में शामिल है और इसी तरह की / संबंधित साइटें आपको लिंक करती हैं।
Alexa इंटरनेट क्रॉल करने के लिए साइटों की खोज करने के लिए अपने स्वयं के तरीकों का उपयोग करता है। यह मुफ्त अलेक्सा टूलबार को स्थापित करने और उस साइट पर जाने के लिए सहायक हो सकता है जिसे आप क्रॉल करना चाहते हैं ताकि यह सुनिश्चित हो सके कि वे इसके बारे में जानते हैं।
साइट को क्रॉल करने के बावजूद, आपको यह सुनिश्चित करना चाहिए कि आपकी साइट के 'robots.txt' नियम और इन-पेज META रोबोट निर्देश क्रॉलर को आपकी साइट से बचने के लिए न कहें।
अपडेट: 09-मई-2017
अन्य लोगों ने टिप्पणियों / उत्तरों को छोड़ दिया है जो दर्शाता है कि Archive.org अब robots.txt का सम्मान नहीं करता है। शायद यह एक "काम-में-प्रगति" है और यह अंततः मामला होगा, लेकिन मैंने अभी तक इस नए व्यवहार को नहीं देखा है।
इसके लिए मामला इस लेख से लगता है: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE by archiveteam.org। हालांकि उस पेज में बहुत कम अगर "Robots.txt" के बारे में कुछ भी अच्छा है, तो यह कहीं भी उल्लेख नहीं करता है कि Archive.org अब robots.txt का सम्मान नहीं करेगी।
नोट का भी: उस लेख को होस्ट किया गया है archiveteam.org, जो निश्चित रूप से नहीं है archive.org, और मुझे यकीन नहीं है कि archive.orgऔर के बीच कोई (आधिकारिक) संबंध है archiveteam.org।
वास्तव में, आर्काइव टीम के बारे में यह पृष्ठ , ( और जोर दिया गया) के बीच अंतर घोषित करता है :archive.org archive.orgarchiveteam.org
2009 में गठित, आर्काइव टीम ( आर्काइव.ऑर्क -इट टीम के साथ भ्रमित नहीं होना ) इतिहास और डिजिटल विरासत की खातिर तेजी से मरने वाली या हटाई गई वेबसाइटों की प्रतियों को सहेजने के लिए समर्पित एक दुष्ट कट्टरपंथी सामूहिक है। ...
किसी भी मामले में, मैंने इसे एक कोशिश देने का फैसला किया, और मैंने पाया कि, कम से कम इस समय, आर्काइव.ऑर्गिली स्टिल्स का सम्मान करता है।
- मुझे eBay पर एक यादृच्छिक आइटम मिला: आइटम #: 131795294232
- बेची गई वस्तुओं को देखने के लिए क्लिक करें:

- "बेचा गया आइटम" पृष्ठ खुलता है: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 क्लिपबोर्ड के लिंक की प्रतिलिपि बनाएँ।
- गोटो web.archive.org , और ईबे से लिंक पेस्ट करें।
- आप देखेंगे कि
archive.orgइंगित करता है कि "पेज robots.txt के कारण प्रदर्शित नहीं किया जा सकता है।"

इसलिए, इस समय, मैं असंबद्ध रहता हूं, लेकिन मैं गलत साबित होना पसंद करूंगा ... यह सच होगा तो बहुत अच्छा होगा।