सिर्फ "अस्वीकृत /" के अलावा इंटरनेट आर्काइव पर नियंत्रण?

क्या किसी साइट पर इंटरनेट आर्काइव अभिलेखागार को नियंत्रित करने के लिए कोई तंत्र हैं? मैं उन सभी पृष्ठों को अस्वीकार करना जानता हूं जिन्हें मैं जोड़ सकता था :

User-agent: ia_archiver
Disallow: /

क्या मैं बॉट को बता सकता हूं कि मैं चाहता हूं कि वे महीने में एक बार या साल में एक बार मेरी साइट को क्रॉल करें।
मेरे पास एक ऐसी साइट / पृष्ठ हैं जो संपत्तियों को नहीं उठाए जाने के कारण सही ढंग से संग्रहीत / प्राप्त नहीं करते हैं। क्या इंटरनेट आर्काइव बॉट को बताने का कोई तरीका है कि साइट को हथियाने के लिए उसे किन संपत्तियों की ज़रूरत है?

cache internet-archive

— artlung
स्रोत

मुझे इसके जवाबों में भी बहुत दिलचस्पी है। +1 :)

— टिम पोस्ट

संबंधित: "क्या एलेक्सा के ia_archiver को मेरी वेबसाइट के क्रॉलिंग को धीमा करने का एक तरीका है?"

— अविस्मरणीयसुपोर्ट्समोनिका

जवाबों:

नोट : यह उत्तर तेजी से पुराना है।

इंटरनेट आर्काइव के वेब संग्रह में सबसे बड़ा योगदान एलेक्सा इंटरनेट का रहा है। एलेक्सा अपने उद्देश्यों के लिए क्रॉल करती सामग्री कुछ महीनों बाद आईए को दान कर दी गई है। प्रश्न में उल्लिखित अस्वीकरण नियम को जोड़ने से उन क्रॉलों पर कोई असर नहीं पड़ता है, लेकिन वेकबैक उन्हें 'सम्मानपूर्वक' सम्मान देगा (पहुँच से इनकार करते हुए, सामग्री अभी भी संग्रह में होगी - आपको एलेक्सा के रोबोट को बाहर करना चाहिए यदि आप वास्तव में अपनी सामग्री को बाहर रखना चाहते हैं इंटरनेट आर्काइव का)।

एलेक्सा के क्रॉल को प्रभावित करने के तरीके हो सकते हैं, लेकिन मैं इससे परिचित नहीं हूं।

चूंकि आईए ने अपना क्रॉलर (हेरिट्रिक्स) विकसित किया है, इसलिए उन्होंने अपने क्रॉल करना शुरू कर दिया है, लेकिन वे लक्षित क्रॉल करते हैं (वे लाइब्रेरी ऑफ कांग्रेस के लिए चुनाव क्रॉल करते हैं और फ्रांस और ऑस्ट्रेलिया आदि के लिए राष्ट्रीय क्रॉल करते हैं)। वे उस तरह के निरंतर विश्व स्तर पर संलग्न नहीं होते हैं जो Google और एलेक्सा आचरण करते हैं। IA का सबसे बड़ा क्रॉल 2 बिलियन पृष्ठों को क्रॉल करने वाला एक विशेष प्रोजेक्ट था।

चूंकि ये क्रॉल शेड्यूल पर संचालित होते हैं, जो प्रोजेक्ट विशिष्ट कारकों से प्राप्त होते हैं, आप प्रभावित नहीं कर सकते हैं कि वे कितनी बार आपकी साइट पर आते हैं या यदि वे आपकी साइट पर आते हैं।

IA आपकी साइट को कैसे और कब क्रॉल करता है, इसे सीधे प्रभावित करने का एकमात्र तरीका उनकी आर्काइव-इट सेवा का उपयोग करना है । यह सेवा आपको कस्टम क्रॉल निर्दिष्ट करने की अनुमति देती है। परिणामी डेटा (अंततः) आईए के वेब संग्रह में शामिल किया जाएगा। हालांकि यह एक पेड सब्सक्रिप्शन सेवा है।

— क्रिस
स्रोत

2011 में आईएए के बारे में आपकी अपनी टिप्पणी क्रॉल करना सही था, और अब 2016 में सच नहीं है: हम अपने स्वयं के, अब बहुत क्रॉल करते हैं।

— ग्रेग लिंडहल

आप इस सवाल का एक अद्यतन जवाब जोड़ने के लिए स्वागत है @GregLindahl

— स्टीफन Ostermiller

अधिकांश खोज इंजन "क्रॉल-डिले" निर्देश का समर्थन करते हैं, लेकिन मुझे नहीं पता कि आईए करता है या नहीं। आप इसे आजमा सकते हैं:

User-agent: ia_archiver
Crawl-delay: 3600

यह अनुरोधों को 3600 सेकंड (यानी 1 घंटे) या प्रति माह ~ 700 अनुरोधों के बीच विलंब को सीमित करेगा।

मुझे नहीं लगता कि # 2 संभव है - आईए बॉट संपत्ति को पकड़ लेता है जब वह फिट होता है। बहुत अधिक संग्रहण का उपयोग करने से बचने के लिए इसकी फ़ाइल आकार सीमा हो सकती है।

— DisgruntledGoat
स्रोत

@ क्रिस: क्रॉल-विलंब की स्थापना प्रॉक्सी द्वारा करनी चाहिए। यदि आपके पास 30 पृष्ठ हैं और आप क्रॉलर को दिन में केवल एक बार हिट करने के लिए कहते हैं, तो प्रत्येक पृष्ठ को हर 30 दिनों में लगभग ताज़ा किया जा सकता है। (कोई गारंटी नहीं, जाहिर है।)

— असंतुष्टGoGoat

सिद्धांत रूप में, हां, यदि आप अभिलेखीय क्रॉलिंग कर रहे हैं तो आप इस तरह के नियम का पालन नहीं करेंगे। साइट को प्रति दिन एक दस्तावेज़ क्रॉल करने का मतलब है कि आप समय पर एक विशिष्ट समय में साइट पर एक अच्छा कब्जा नहीं प्राप्त कर सकते हैं। यदि इस विशेषता का सम्मान किया जाना था तो यह किसी भी अभिलेखीय क्रॉल में 1-5 मिनट की ऊपरी सीमा के साथ होगा ।

— क्रि।

आह ठीक है, मैं आपकी बात देख रहा हूं।

— असंतुष्टगीतगोठ

मैं अभी हाल ही में रिलीज़ हुए Heritrix 3 को देख रहा हूं और मैं देख रहा हूं कि उन्होंने क्रॉल-डिले निर्देश को संभाल लिया है, लेकिन यह अधिकतम 300 सेकंड (5 मिनट) का सम्मान करने में चूक करता है।

— क्रिश