कैसे ठीक से (जिले में) की अनुमति दें। क्या चीजें बदल गईं, अगर ऐसा है तो कब?

10

मेरे पास एक वेबसाइट है जिसे मैं ज्यादातर सर्च इंजनों द्वारा अनुक्रमित नहीं करना चाहता, लेकिन मैं इसे आर्काइव डॉट ओआरजी पर अनंत काल के लिए संरक्षित करना चाहता हूं। तो मेरी robots.txtशुरुआत इसके साथ होती है:

User-agent: *
Disallow: /

आज, आर्कियो.ऑर्ग के अनुसार मुझे robots.txtअपने बॉट की अनुमति देने के लिए निम्नलिखित में जोड़ना होगा :

User-agent: ia_archiver
Disallow:

लेकिन, मैंने पहले ही कर दिया था कि उन्होंने कुछ साल पहले संकेत दिया था, कम से कम, मैंने निम्नलिखित जोड़ा:

User-agent: archive.org_bot
Disallow:

फिर एक अन्य स्रोत का दावा है कि आपको ऊपर दिए गए दोनों को जोड़ना है Disallow, साथ ही एक और:

User-agent: ia_archiver-web.archive.org 
Disallow:

ध्यान दें कि Disallow: /यदि आप अपनी साइट को संग्रहीत करने के लिए बॉट नहीं चाहते हैं तो आपको डालनी होगी।

क्या आईए बॉट के साथ कोई बदलाव हुआ है? अगर ऐसा हैं तोह कब?

अनुशंसित तरीका क्या है? क्या मुझे अभी के लिए तीनों को अनुमति देनी चाहिए और आशा है कि भविष्य में आईए फिर से अपना बॉट नाम नहीं बदलेगा?

web-crawlers robots.txt internet-archive

— kqw
स्रोत

मुझे केवल ia_archiver के बारे में पता था। दूसरे लोग मेरे लिए आश्चर्य की बात हैं। क्या आपके पास इसके लिए लिंक हैं? मेरे पूछने का कारण यह है कि आर्काइव.ऑर्ग मेरी साइट पर वैसे भी आता है और मुझे उन्हें आईपी एड्रेस से ब्लॉक करना पड़ता है। आप यह भी है कि आप का उल्लेख करें archive.org अनुमति देने के लिए, लेकिन फिर यह अवरुद्ध के बारे में बात करना चाहता हूँ। मैं बस इस पर स्पष्ट होना चाहता हूं और लिंक हम सभी की मदद कर सकते हैं। अग्रिम में धन्यवाद!

— क्लोजिटेनोक

सवाल अपडेट किया। उम्मीद है कि अब यह स्पष्ट हो जाएगा। छोटा संस्करण: मुझे इस साइट पर खोज इंजन बॉट नहीं चाहिए, मुझे आर्काइव डॉट बॉट्स चाहिए। लेकिन हो सकता है कि मैं इस सवाल को उलट दूं क्योंकि ज्यादातर लोग यही चाहते हैं?

— 15

दरअसल, यदि आप इनमें से किसी का भी उपयोग नहीं करते हैं, तो आप आर्काइव.ऑर्ग की अनुमति दे रहे हैं, ताकि आप कंबल स्टेटमेंट के साथ ब्लॉक नहीं कर रहे हैं।

— क्लोसेट्नोक

सिर्फ "ia_archiver" का उपयोग करके "ia_archiver-web.archive.org" को भी अवरुद्ध करना चाहिए, इसलिए बाद में अनावश्यक प्रतीत होगा (यह बॉट मानक का पालन करता है)।

— ०६:२६ बजे ०५

क्या आपको अपने एक्सेस लॉग में ia-archiver (या आर्काइव.ऑर्ग_बॉट) बॉट दिखाई देता है?

— Mrhhite

9

अपडेट : @KevinFegan टिप्पणियों में नोट के रूप में, उनके प्रलेखन बदल गए। नीचे का भाग बताता है कि इंटरनेट आर्काइव ने अतीत में (कम से कम 2014 में) इसे कैसे संभाला।

उनके अक्सर पूछे जाने वाले प्रश्न मैं अपनी साइट के पेजों को वेकबैक मशीन से कैसे निकाल सकता हूं? वेबैक मशीन से दस्तावेजों को हटाने का संदर्भ देता है , जो कि उनके बॉट को कहा जाता है ia_archiver।

तो इस रिकॉर्ड को उनके बॉट को आपकी पूरी साइट को क्रॉल करने की अनुमति देनी चाहिए:

User-agent: ia_archiver
Disallow:

— UNOR
स्रोत

समूहों का क्रम मायने नहीं रखना चाहिए। सबसे विशिष्ट (यानी। सबसे लंबे समय तक) उपयोगकर्ता एजेंट है कि जिन मैचों में जीत से एक है। *समूह केवल मेल खाता है जब कोई अन्य समूह से मेल खाता है।

— Mrhhite

@ w3d: आप सही कह रहे हैं, मैंने इस हिस्से को हटा दिया है। जानकारी के लिए धन्यवाद :)

— unor

1

जाहिर है, यह समय के साथ बदल गया है। मैं आपके द्वारा दिए गए अक्सर पूछे जाने वाले प्रश्न पृष्ठ पर "ia_archiver" नहीं पा सकता हूं , और 25 अप्रैल, 2017 से इस आर्काइव.ऑर्ग ब्लॉग पेज पर, मार्क ग्राहम कहते हैं: "ia_archiver" उपयोगकर्ता एजेंट का उपयोग एलेक्सा इंटरनेट द्वारा किया जाता है, इंटरनेट पुरालेख नहीं।

— केविन फेगन

@ केविनफैन: आपके नोटिस के लिए धन्यवाद! मैंने दस्तावेज़ के संग्रहीत संस्करणों से लिंक करने के लिए अपना उत्तर अपडेट किया जिसमें नाम शामिल था।

— UNOR

मुझे पसंद है कि कैसे वे जानबूझकर चीजों को जटिल बनाते हैं ताकि वे दूर हो सकें!

— अल्ट्रालाइक

5

यहाँ वास्तव में 2 मुद्दे हैं:

robots.txtआपकी साइट पर विल आपकी साइट को क्रॉल करने के तरीके को अस्वीकार (ब्लॉक) कर देगा।
Wayback आपकी साइट को क्रॉल करेगा।

बिंदु # 1 के लिए:
जैसा कि दूसरों ने कहा है, robots.txt के लिए सही प्रविष्टि है:

User-agent: ia_archiver
Disallow:

ध्यान रखें कि Wayback के लिए आपको कुछ समय लग सकता है।

यह देखने के लिए कि क्या robots.txtआपकी साइट पर वेबैक आपकी साइट को क्रॉल करने की अनुमति देगा :

इस URL पर जाएं : https://archive.org/web/
पृष्ठ के शीर्ष पर स्थित बॉक्स में, अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और "Browse History"बटन पर क्लिक करें।
या, "सेव पेज नाउ" (वर्तमान में दाईं ओर नीचे) के नीचे स्थित बॉक्स में, और अपनी साइट पर एक पृष्ठ का URL दर्ज करें, और "Save Page"बटन पर क्लिक करें।

इस बिंदु पर, आपको 3 चीजों में से 1 को देखना चाहिए:

आपको एक त्रुटि संदेश दिखाई देगा जो बताता है कि "robots.txt" के कारण वेबैक उस साइट के पृष्ठों तक नहीं पहुँच सकता है।
आप अपनी साइट पर पृष्ठ के लिए ऐतिहासिक बचत बिंदुओं का "कैलेंडर" देखेंगे। इस स्थिति में, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।
या, आपको एक संदेश दिखाई देगा जो यह बताता है कि वेबैक में उस पृष्ठ का संग्रह नहीं है, और पेजबैक में पेज जोड़ने के लिए लिंक पर क्लिक करने की पेशकश है। इस मामले में भी, आप जानते हैं कि आपकी साइट को क्रॉल करने से वेबैक अवरुद्ध नहीं है।

अब, बिंदु # 2 के लिए:

क्या Wayback आपकी साइट को क्रॉल करेगा ?

सिर्फ इसलिए कि आप अनुमति दें वेबैक आपकी साइट को क्रॉल, इसका मतलब यह नहीं है कि वे (कभी) आपकी साइट को क्रॉल जाएगा।

वेकबैक एफएक्यू (जोर जोड़ा) के अनुसार:

मैं अपनी साइट को वेकबैक मशीन में कैसे शामिल कर सकता हूं?

हमारे बहुत से संग्रहीत वेब डेटा हमारे अपने क्रॉल से या एलेक्सा इंटरनेट के क्रॉल से आते हैं। न तो संगठन के पास "अब मेरी साइट क्रॉल है!" प्रस्तुत करने की प्रक्रिया। इंटरनेट आर्काइव के क्रॉल उन साइटों को ढूंढते हैं जो अन्य साइटों से अच्छी तरह से जुड़ी हुई हैं । यह सुनिश्चित करने का सबसे अच्छा तरीका है कि हम आपकी वेब साइट को यह सुनिश्चित करें कि यह ऑनलाइन निर्देशिकाओं में शामिल है और इसी तरह की / संबंधित साइटें आपको लिंक करती हैं।

Alexa इंटरनेट क्रॉल करने के लिए साइटों की खोज करने के लिए अपने स्वयं के तरीकों का उपयोग करता है। यह मुफ्त अलेक्सा टूलबार को स्थापित करने और उस साइट पर जाने के लिए सहायक हो सकता है जिसे आप क्रॉल करना चाहते हैं ताकि यह सुनिश्चित हो सके कि वे इसके बारे में जानते हैं।

साइट को क्रॉल करने के बावजूद, आपको यह सुनिश्चित करना चाहिए कि आपकी साइट के 'robots.txt' नियम और इन-पेज META रोबोट निर्देश क्रॉलर को आपकी साइट से बचने के लिए न कहें।

अपडेट: 09-मई-2017

अन्य लोगों ने टिप्पणियों / उत्तरों को छोड़ दिया है जो दर्शाता है कि Archive.org अब robots.txt का सम्मान नहीं करता है। शायद यह एक "काम-में-प्रगति" है और यह अंततः मामला होगा, लेकिन मैंने अभी तक इस नए व्यवहार को नहीं देखा है।

इसके लिए मामला इस लेख से लगता है: Robots.txt: ROBOTS.TXT IS A SUICIDE NOTE by archiveteam.org। हालांकि उस पेज में बहुत कम अगर "Robots.txt" के बारे में कुछ भी अच्छा है, तो यह कहीं भी उल्लेख नहीं करता है कि Archive.org अब robots.txt का सम्मान नहीं करेगी।

नोट का भी: उस लेख को होस्ट किया गया है archiveteam.org, जो निश्चित रूप से नहीं है archive.org, और मुझे यकीन नहीं है कि archive.orgऔर के बीच कोई (आधिकारिक) संबंध है archiveteam.org।

वास्तव में, आर्काइव टीम के बारे में यह पृष्ठ , ( और जोर दिया गया) के बीच अंतर घोषित करता है :archive.org archive.orgarchiveteam.org

2009 में गठित, आर्काइव टीम ( आर्काइव.ऑर्क -इट टीम के साथ भ्रमित नहीं होना ) इतिहास और डिजिटल विरासत की खातिर तेजी से मरने वाली या हटाई गई वेबसाइटों की प्रतियों को सहेजने के लिए समर्पित एक दुष्ट कट्टरपंथी सामूहिक है। ...

किसी भी मामले में, मैंने इसे एक कोशिश देने का फैसला किया, और मैंने पाया कि, कम से कम इस समय, आर्काइव.ऑर्गिली स्टिल्स का सम्मान करता है।

मुझे eBay पर एक यादृच्छिक आइटम मिला: आइटम #: 131795294232
बेची गई वस्तुओं को देखने के लिए क्लिक करें:

"बेचा गया आइटम" पृष्ठ खुलता है: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 क्लिपबोर्ड के लिंक की प्रतिलिपि बनाएँ।
गोटो web.archive.org , और ईबे से लिंक पेस्ट करें।
आप देखेंगे कि archive.orgइंगित करता है कि "पेज robots.txt के कारण प्रदर्शित नहीं किया जा सकता है।"

इसलिए, इस समय, मैं असंबद्ध रहता हूं, लेकिन मैं गलत साबित होना पसंद करूंगा ... यह सच होगा तो बहुत अच्छा होगा।

— केविन फेगन
स्रोत

Robots.txt के साथ संग्रह.org को बंद करना अब और काम नहीं करेगा:

— wortwart

@wortwart - अगर ऐसा होता तो बहुत अच्छा होता (देखें अपडेट मैंने अपने जवाब में जोड़ा)। क्या आपके पास इस बारे में जानकारी के लिए लिंक हैं?

— केविन फेगन

ज़रूर: blog.archive.org/2017/04/17/… "" कुछ महीने पहले हमने अमेरिकी सरकार और सैन्य वेब साइटों पर robots.txt फ़ाइलों का संदर्भ देना बंद कर दिया था (...) अब हम इसे और अधिक व्यापक रूप से करना चाहते हैं। "

— वॉर्टवार्ट

4

अपडेट 2017

आर्काइव बॉट अब आपके robots.txt की परवाह नहीं करता है।

यदि आप वास्तव में इसे ब्लॉक करना चाहते हैं, तो उन्हें इस पेज के अनुसार एक ईमेल भेजें , या htaccess के माध्यम से उनके आईपी पते को ब्लॉक करें।

— Goyllo
स्रोत

2

मेरा उत्तर के लिए मई 2017 अद्यतन देखें: कैसे ठीक से (dis) archive.org बॉट अनुमति देने के लिए ...? । पुरालेख बॉट अभी भी सरकारी वेबसाइटों को छोड़कर, robots.txt फ़ाइल के बारे में परवाह करता है। आपके द्वारा उल्लिखित लेख को www.archiveteam.org से नोटिस करें, जो संग्रह से संबंधित नहीं है। --->

— केविन फेगन

---> हालांकि उस पेज में बहुत कम अगर "Robots.txt" के बारे में कुछ भी अच्छा है, तो यह कहीं भी उल्लेख नहीं करता है कि Archive.org अब robots.txt का सम्मान नहीं करेगी। प्रासंगिक Archive.org लेख है: Robots.txt का मतलब है खोज इंजन वेब अभिलेखागार के लिए अच्छी तरह से काम नहीं करते हैं । "कुछ महीने पहले हमने अमेरिकी सरकार और सैन्य वेब साइटों पर robots.txt फ़ाइलों का उल्लेख करना बंद कर दिया था ... (...) अब हम इसे और अधिक व्यापक रूप से करना चाहते हैं।"

— केविन फगन

हाँ। अब पुरालेख निष्कासन अनुरोधों की पूरी तरह से अनदेखी करता है।

— अल्ट्रालाइक

3

Robots.txt ia_archiver प्रविष्टि ("/" के साथ) को अस्वीकार करने की आवश्यकता के लिए ठीक होना चाहिए जिसका आप वर्णन करते हैं ("अनंत काल तक संरक्षित करने के लिए", लेकिन अभी तक सार्वजनिक रूप से नहीं)।

मैंने अभी एक त्वरित परीक्षण किया, एक साइट के लिए ia_archiver डिस्लो को प्रविष्टि के बारे में बताते हुए कहा कि यह पिछले 10 वर्षों से था। तब मैंने आर्काइव डॉट ओआरबी पर साइट देखी, और उसने 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 और 2017 में इकट्ठा किए गए कब्रों को दिखाया! इसका मतलब यह है कि Archive.org ने कड़ाई से कभी भी सम्मानित नहीं किया कि दूसरों ने इन वर्षों के दौरान "संग्रह न करें" कथन को क्या माना, यह केवल संग्रहीत प्रतियों को उजागर नहीं कर रहा था।

— माइक
स्रोत

2

एलेक्सा द्वारा उपयोग किया जाने वाला "आइआ_आर्काइवर" अब (एब) है, कुछ सूत्रों का कहना है: 1 , 2 ।
Archive.org अब (2018) "robots.txt" का किसी भी तरह से अधिक सम्मान नहीं करता है। 3 केवल मिल / गो पेज के लिए ही नहीं, बल्कि सभी पेजों के लिए। जैसा कि मेरी अपनी निजी वेबसाइट के साथ अनुभव किया गया है, जिसमें 2012 के बाद से ia-छोड़कर robots.txt है; और अब मुझे अचानक पता चला कि यह सभी वर्षों में उनके द्वारा क्रॉल और सहेजा गया है और अब पूरा इतिहास दिखाई दे रहा है। यह विश्वासघात होने का अहसास है। > :-(

— कार्ल
स्रोत

1

मैंने robots.txtविधि की कोशिश की और यह काम नहीं किया। इसलिए मैंने उनके ईमेल info@archive.org पर वेबसाइट से संपर्क किया:

हैलो,

क्या आप कृपया मेरी निजी वेबसाइट dimitarnestorov.com को अपने संग्रह से हटा सकते हैं?

धन्यवाद!

दिमितार

और मुझे निम्नलिखित उत्तर मिला:

हैलो,

इंटरनेट आर्काइव वेकबैक मशीन (web.archive.org) से वेबसाइटों को बाहर कर सकता है, लेकिन हम पहले सम्मानपूर्वक अनुरोध करते हैं कि आप हमें यह सत्यापित करने में सहायता करते हैं कि आप निम्नलिखित में से किसी एक को करके साइट के मालिक या dimitarnestorov.com के लेखक हैं:

(नोट: इनमें से कुछ विकल्प पूर्ववर्ती वेबैक मशीन कैप्चर में स्थित सामग्री के संदर्भ में हो सकते हैं, और / या आपके द्वारा निर्दिष्ट समय अवधि से संबंधित दस्तावेज हो सकते हैं।)

साइट के वर्तमान संस्करण पर अपना अनुरोध पोस्ट करें (और हमें लिंक भेजें)।

साइट पर सूचीबद्ध मुख्य ईमेल संपर्क से अपना अनुरोध भेजें और हमें बताएं कि यह कहाँ स्थित है (यदि कोई मौजूद है)।

कुलसचिव के ईमेल से अनुरोध भेजें (यदि सार्वजनिक रूप से WHOIS देखने पर आप हमें लिंक कर सकते हैं) या साइट पर सूचीबद्ध वेबमास्टर का ईमेल।

हमें इंगित करें कि आपकी व्यक्तिगत जानकारी (नाम, संपर्क का बिंदु, स्वयं की छवि) साइट पर इस तरह से दिखाई देती है जो आपको उस साइट या उस सामग्री के लेखक के रूप में पहचानती है जिसे आप बाहर करना चाहते हैं - इस उदाहरण में, हम पूछते हैं एक वैध फोटो आईडी (जन्म तिथि, पता, या फोन नंबर के रूप में संवेदनशील जानकारी को स्कैन किया जा सकता है) के स्कैन के माध्यम से अपनी पहचान को सत्यापित करने के लिए।

हमसे एक होस्टिंग कंपनी या रजिस्ट्रार से संपर्क करें जो आपको डोमेन के स्वामी के रूप में संबोधित करता है।

(ध्यान दें: किसी के नाम / उपयोगकर्ता नाम का सरल उल्लेख और / या अपने आप में साइटों / पृष्ठों / खातों के बीच हाइपरलिंक / रीडायरेक्ट आमतौर पर अभिलेखागार को बाहर करने के लिए पर्याप्त नहीं है।)

यदि इनमें से कोई भी विकल्प आपके लिए उपलब्ध नहीं है, तो कृपया इस ईमेल के उत्तर में हमें बताएं।

यदि आप हमें यथासंभव संग्रह को संरक्षित करने में मदद करेंगे, तो हम आपके आभारी होंगे। इसलिए, कृपया हमें बताएं कि क्या केवल विशिष्ट URL या निर्देशिकाएं हैं जिनके बारे में आप चिंतित हैं ताकि हम उपलब्ध अभिलेखागार को छोड़ दें।

जैसा कि आप जानते हैं, इंटरनेट आर्काइव एक गैर-लाभकारी डिजिटल लाइब्रेरी है, जो वेकब मशीन के माध्यम से इंटरनेट का एक स्वतंत्र रूप से सुलभ ऐतिहासिक रिकॉर्ड बनाए रखने की मांग कर रहा है। अभिलेखागार में सामग्री का व्यावसायिक लाभ के लिए इंटरनेट आर्काइव द्वारा शोषण नहीं किया गया है।

इंटरनेट आर्काइव टीम

मैंने wayback-removal-request.htmlनिम्नलिखित सामग्री (मान्य HTML नहीं) के साथ बनाया है :

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

इसे अपलोड किया और उनके ईमेल का उत्तर उस URL से दिया जिसमें से वेबपेज उपलब्ध था और बाद में मुझे निम्नलिखित उत्तर मिला:

हैलो,

नीचे दी गई आपकी ईमेल में संदर्भित साइट / URL अब वेनबैक मशीन से http://www.archive.org (सभी पिछले कैप्चर के संबंध में) से बाहर करने के लिए प्रस्तुत किया गया है :

dimitarnestorov.com

कृपया अपने पाठ्यक्रम को चलाने के लिए और परिवर्तनों को प्रभावी करने के लिए प्रक्रिया के स्वचालित भागों के लिए एक दिन तक का समय दें।

इंटरनेट आर्काइव टीम

जब मैंने कुछ घंटे बाद जाँच की तो मेरी वेबसाइट को हटा दिया गया।

— दिमितार नेस्टरोव
स्रोत