सिर्फ "अस्वीकृत /" के अलावा इंटरनेट आर्काइव पर नियंत्रण?


13

क्या किसी साइट पर इंटरनेट आर्काइव अभिलेखागार को नियंत्रित करने के लिए कोई तंत्र हैं? मैं उन सभी पृष्ठों को अस्वीकार करना जानता हूं जिन्हें मैं जोड़ सकता था :

User-agent: ia_archiver
Disallow: /
  1. क्या मैं बॉट को बता सकता हूं कि मैं चाहता हूं कि वे महीने में एक बार या साल में एक बार मेरी साइट को क्रॉल करें।

  2. मेरे पास एक ऐसी साइट / पृष्ठ हैं जो संपत्तियों को नहीं उठाए जाने के कारण सही ढंग से संग्रहीत / प्राप्त नहीं करते हैं। क्या इंटरनेट आर्काइव बॉट को बताने का कोई तरीका है कि साइट को हथियाने के लिए उसे किन संपत्तियों की ज़रूरत है?


मुझे इसके जवाबों में भी बहुत दिलचस्पी है। +1 :)
टिम पोस्ट

जवाबों:


8

नोट : यह उत्तर तेजी से पुराना है।

इंटरनेट आर्काइव के वेब संग्रह में सबसे बड़ा योगदान एलेक्सा इंटरनेट का रहा है। एलेक्सा अपने उद्देश्यों के लिए क्रॉल करती सामग्री कुछ महीनों बाद आईए को दान कर दी गई है। प्रश्न में उल्लिखित अस्वीकरण नियम को जोड़ने से उन क्रॉलों पर कोई असर नहीं पड़ता है, लेकिन वेकबैक उन्हें 'सम्मानपूर्वक' सम्मान देगा (पहुँच से इनकार करते हुए, सामग्री अभी भी संग्रह में होगी - आपको एलेक्सा के रोबोट को बाहर करना चाहिए यदि आप वास्तव में अपनी सामग्री को बाहर रखना चाहते हैं इंटरनेट आर्काइव का)।

एलेक्सा के क्रॉल को प्रभावित करने के तरीके हो सकते हैं, लेकिन मैं इससे परिचित नहीं हूं।

चूंकि आईए ने अपना क्रॉलर (हेरिट्रिक्स) विकसित किया है, इसलिए उन्होंने अपने क्रॉल करना शुरू कर दिया है, लेकिन वे लक्षित क्रॉल करते हैं (वे लाइब्रेरी ऑफ कांग्रेस के लिए चुनाव क्रॉल करते हैं और फ्रांस और ऑस्ट्रेलिया आदि के लिए राष्ट्रीय क्रॉल करते हैं)। वे उस तरह के निरंतर विश्व स्तर पर संलग्न नहीं होते हैं जो Google और एलेक्सा आचरण करते हैं। IA का सबसे बड़ा क्रॉल 2 बिलियन पृष्ठों को क्रॉल करने वाला एक विशेष प्रोजेक्ट था।

चूंकि ये क्रॉल शेड्यूल पर संचालित होते हैं, जो प्रोजेक्ट विशिष्ट कारकों से प्राप्त होते हैं, आप प्रभावित नहीं कर सकते हैं कि वे कितनी बार आपकी साइट पर आते हैं या यदि वे आपकी साइट पर आते हैं।

IA आपकी साइट को कैसे और कब क्रॉल करता है, इसे सीधे प्रभावित करने का एकमात्र तरीका उनकी आर्काइव-इट सेवा का उपयोग करना है । यह सेवा आपको कस्टम क्रॉल निर्दिष्ट करने की अनुमति देती है। परिणामी डेटा (अंततः) आईए के वेब संग्रह में शामिल किया जाएगा। हालांकि यह एक पेड सब्सक्रिप्शन सेवा है।


3
2011 में आईएए के बारे में आपकी अपनी टिप्पणी क्रॉल करना सही था, और अब 2016 में सच नहीं है: हम अपने स्वयं के, अब बहुत क्रॉल करते हैं।
ग्रेग लिंडहल

आप इस सवाल का एक अद्यतन जवाब जोड़ने के लिए स्वागत है @GregLindahl
स्टीफन Ostermiller

2

अधिकांश खोज इंजन "क्रॉल-डिले" निर्देश का समर्थन करते हैं, लेकिन मुझे नहीं पता कि आईए करता है या नहीं। आप इसे आजमा सकते हैं:

User-agent: ia_archiver
Crawl-delay: 3600

यह अनुरोधों को 3600 सेकंड (यानी 1 घंटे) या प्रति माह ~ 700 अनुरोधों के बीच विलंब को सीमित करेगा।

मुझे नहीं लगता कि # 2 संभव है - आईए बॉट संपत्ति को पकड़ लेता है जब वह फिट होता है। बहुत अधिक संग्रहण का उपयोग करने से बचने के लिए इसकी फ़ाइल आकार सीमा हो सकती है।


@ क्रिस: क्रॉल-विलंब की स्थापना प्रॉक्सी द्वारा करनी चाहिए। यदि आपके पास 30 पृष्ठ हैं और आप क्रॉलर को दिन में केवल एक बार हिट करने के लिए कहते हैं, तो प्रत्येक पृष्ठ को हर 30 दिनों में लगभग ताज़ा किया जा सकता है। (कोई गारंटी नहीं, जाहिर है।)
असंतुष्टGoGoat

सिद्धांत रूप में, हां, यदि आप अभिलेखीय क्रॉलिंग कर रहे हैं तो आप इस तरह के नियम का पालन नहीं करेंगे। साइट को प्रति दिन एक दस्तावेज़ क्रॉल करने का मतलब है कि आप समय पर एक विशिष्ट समय में साइट पर एक अच्छा कब्जा नहीं प्राप्त कर सकते हैं। यदि इस विशेषता का सम्मान किया जाना था तो यह किसी भी अभिलेखीय क्रॉल में 1-5 मिनट की ऊपरी सीमा के साथ होगा ।
क्रि।

आह ठीक है, मैं आपकी बात देख रहा हूं।
असंतुष्टगीतगोठ

मैं अभी हाल ही में रिलीज़ हुए Heritrix 3 को देख रहा हूं और मैं देख रहा हूं कि उन्होंने क्रॉल-डिले निर्देश को संभाल लिया है, लेकिन यह अधिकतम 300 सेकंड (5 मिनट) का सम्मान करने में चूक करता है।
क्रिश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.