क्या कोई वेबसाइट ट्रैवर्सल की गति के अलावा एक वेब स्क्रैपर और वैध उपयोगकर्ता के बीच अंतर कर सकती है? [बन्द है]


0

अगर मैं किसी मानव की गति से मेल खाने के लिए वेब स्क्रैपर की गति को कम कर दूं, तो क्या कोई तृतीय पक्ष उनके बीच अंतर कर पाएगा? उपयोगकर्ता और स्क्रेपर्स के बीच अंतर करने के लिए वेबसाइटें कौन से अन्य मापदंड का उपयोग करती हैं


क्या यह सवाल पूछने के लिए सही साइट नहीं है? क्या आप उपयुक्त साइट का सुझाव दे सकते हैं
user239457

स्क्रैपर के पास एक होस्टनाम होगा जो एक निश्चित सूची में है। इसमें एक खुरचनी की पहचान हो सकती है, इसके समान आपकी पहचान यह होगी कि आप किस ब्राउज़र का उपयोग करते हैं। स्क्रैपर की पहचान करने के लिए बहुत सारे अलग-अलग तरीके हैं, लेकिन यह सवाल पूछने के लिए वास्तव में सही साइट नहीं है।
LPChip

जवाबों:


3

कई मापदंड हैं जो एक वेब साइट संभव स्क्रैपर्स की पहचान करने के लिए उपयोग कर सकते हैं। कुछ दूसरों की तुलना में झूठी सकारात्मकता के लिए अधिक प्रवण हैं।

  • उपभोक्ता अभिकर्ता। कई स्क्रैपर्स में एक User-Agent:हेडर होता है जो आसानी से और मज़बूती से उनकी पहचान करता है। निम्नलिखित विशेषताओं में से कई को यह User-Agent:देखने के लिए भी सहसंबद्ध किया जा सकता है कि क्या पोस्ट किए गए उपयोगकर्ता एजेंट का व्यवहार वास्तव में मेल खाता है जो कि ग्राफिकल ब्राउज़र से अपेक्षित है, जैसा कि वह प्रकट होने की कोशिश कर सकता है।
  • आईपी ​​पर्वतमाला। उदाहरण के लिए, Google या अमेज़ॅन क्लाउड IP पता स्थान से बाहर चलने वाला एक बोट संभवतः स्वचालित (या एक वीपीएन निकास नोड) है।
  • ट्रैवर्सल समय। एक तुच्छ बॉट "क्लिक्स" के बीच एक निश्चित देरी के साथ साइट-आंतरिक लिंक का दौरा करेगा, या एक भिन्नता के साथ जो एक वास्तविक उपयोगकर्ता के रूप में बहकने में विफल होने के लिए इतना छोटा है।
  • ट्रैवर्सल ऑर्डर। एक तुच्छ बॉट साइट-आंतरिक लिंक को देखने के क्रम में यह उन्हें पता चलता है, जबकि एक उपयोगकर्ता केवल कम पूर्वानुमानित क्रम में लिंक की एक छोटी संख्या का दौरा करेंगे।
  • छवि डाउनलोड। ग्राफिकल ब्राउजर का उपयोग करने वाला मानव कुछ हद तक समानांतर कनेक्शन के पूर्वानुमानित विस्फोटों को प्रदर्शित करेगा, कुछ हद तक उपलब्ध बैंडविड्थ और ब्राउज़र के कॉन्फ़िगरेशन पर भी निर्भर करता है। लेकिन कई बॉट्स एक बार में केवल एक पेज लाएंगे, और शायद पूरी तरह से ग्राफिक्स को बायपास करेंगे।
  • जावास्क्रिप्ट व्यवहार। जावास्क्रिप्ट सक्षम के साथ एक वास्तविक ब्राउज़र जावास्क्रिप्ट पेलोड को निष्पादित करेगा। कुछ स्क्रैप बॉट इसका अनुकरण करने का प्रयास करते हैं, लेकिन कई नहीं करते हैं, और जो अक्सर अपूर्ण कार्य करते हैं।
  • वैकल्पिक रास्ते। HTML स्रोत में ऐसे अनुभागों में लिंक हो सकते हैं जो किसी विशेष कॉन्फ़िगरेशन के साथ किसी विशेष ब्राउज़र में उजागर नहीं होंगे; लेकिन एक तुच्छ बॉट छिपी और उजागर दोनों लिंक पर जाएगा।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.