वेब-क्रॉलर का पता लगाने के लिए क्या विकल्प हैं जो पता नहीं करना चाहते हैं?
(मुझे पता है कि लिस्टिंग डिटेक्शन तकनीक स्मार्ट स्टील्थ-क्रॉलर प्रोग्रामर को एक बेहतर मकड़ी बनाने की अनुमति देगी, लेकिन मुझे नहीं लगता कि हम कभी भी स्मार्ट स्टील्थ-क्रॉलर को ब्लॉक कर पाएंगे, केवल वही जो गलतियां करते हैं।)
मैं googlebot और Yahoo जैसे अच्छे क्रॉलर के बारे में बात नहीं कर रहा हूँ! Slurp। मैं एक बॉट को अच्छा मानता हूं यदि यह:
- उपयोगकर्ता एजेंट स्ट्रिंग में बॉट के रूप में खुद को पहचानता है
- robots.txt पढ़ता है (और इसका पालन करता है)
मैं खराब क्रॉलर के बारे में बात कर रहा हूं , आम उपयोगकर्ता एजेंटों के पीछे छिप रहा हूं , मेरे बैंडविड्थ का उपयोग कर रहा हूं और बदले में मुझे कभी कुछ नहीं दे रहा हूं।
कुछ ट्रैपसाइड हैं जिन्हें अद्यतन सूची (धन्यवाद क्रिस, जीएस) का निर्माण किया जा सकता है :
- केवल एक निर्देशिका को जोड़ा जा रहा है (सूचीबद्ध के रूप में अस्वीकृत) robots.txt में,
- अदृश्य लिंक जोड़ना (संभवतः rel = "nofollow"?) के रूप में चिह्नित किया गया है।
- शैली = "प्रदर्शन: कोई नहीं;" लिंक या मूल कंटेनर पर
- उच्च z- सूचकांक के साथ एक अन्य तत्व के नीचे रखा गया है
- पता लगाएं कि कैपिटलाइज़ेशन को कौन नहीं समझता है,
- पता लगाएं कि कौन उत्तर पोस्ट करने की कोशिश करता है लेकिन हमेशा कैप्चा को विफल करता है।
- POST- केवल संसाधनों के लिए GET अनुरोधों का पता लगाएं
- अनुरोधों के बीच अंतराल का पता लगाएं
- अनुरोध किए गए पृष्ठों के आदेश का पता लगाएं
- पता लगाएँ कि कौन (लगातार) http पर https संसाधनों का अनुरोध करता है
- पता लगाएं कि कौन छवि फ़ाइल का अनुरोध नहीं करता है (यह ज्ञात छवि सक्षम ब्राउज़रों के उपयोगकर्ता-एजेंटों की सूची के साथ संयोजन में आश्चर्यजनक रूप से अच्छा काम करता है)
कुछ जालों को 'अच्छे' और 'बुरे' दोनों बॉट द्वारा ट्रिगर किया जाएगा। आप उन लोगों को श्वेतसूची में जोड़ सकते हैं:
- यह एक जाल को ट्रिगर करता है
- यह निवेदन है
robots.txt
? - यह एक और जाल को ट्रिगर नहीं करता है क्योंकि यह पालन करता है
robots.txt
यहां एक और महत्वपूर्ण बात है:
कृपया स्क्रीन रीडर का उपयोग करके नेत्रहीन लोगों पर विचार करें: लोगों को आपसे संपर्क करने का तरीका दें, या ब्राउज़िंग जारी रखने के लिए एक (गैर-छवि) कैप्चा को हल करें।
सामान्य मानव आगंतुकों के रूप में खुद को मुखौटा बनाने की कोशिश कर रहे वेब क्रॉलर का स्वचालित रूप से पता लगाने के लिए क्या तरीके हैं।
अद्यतन करें
सवाल यह नहीं है: मैं हर क्रॉलर को कैसे पकड़ूं? सवाल यह है: मैं एक क्रॉलर का पता लगाने के अवसर को अधिकतम कैसे कर सकता हूं।
कुछ मकड़ियों वास्तव में अच्छे हैं, और वास्तव में HTML, xhtml, css जावास्क्रिप्ट, VB स्क्रिप्ट आदि को पार्स और समझते हैं ...
मुझे कोई भ्रम नहीं है: मैं उन्हें हरा नहीं पाऊंगा।
हालांकि आपको आश्चर्य होगा कि कुछ क्रॉलर कितने मूर्ख होते हैं। मूर्खता का सबसे अच्छा उदाहरण (मेरी राय में) होने के नाते: अनुरोध करने से पहले सभी URL को लोअर केस में डालें।
और फिर क्रॉलर्स का एक पूरा झुंड है जो विभिन्न जाल से बचने के लिए सिर्फ 'पर्याप्त अच्छा नहीं' हैं।