रोबोट के साथ दुर्व्यवहार से निपटने के लिए रणनीति

मेरे पास एक साइट है, जो नियामक कारणों से, स्वचालित रूप से अनुक्रमित या खोजी नहीं जा सकती है। इसका मतलब है कि हमें सभी रोबोटों को दूर रखने और उन्हें साइट को फैलाने से रोकने की आवश्यकता है।

जाहिर है कि हमारे पास एक robots.txt फ़ाइल है जो शुरू से ही सही है। हालाँकि, robots.txt फ़ाइल का अवलोकन कुछ ऐसा है जो केवल अच्छी तरह से व्यवहार किए गए रोबोट करते हैं। हाल ही में हमारे पास कम व्यवहार वाले रोबोट के साथ कुछ मुद्दे हैं। मैंने कुछ उपयोगकर्ता-एजेंटों को प्रतिबंधित करने के लिए अपाचे को कॉन्फ़िगर किया है, लेकिन इसके आसपास प्राप्त करना बहुत आसान है।

तो, सवाल यह है कि क्या अपाचे को कॉन्फ़िगर करने का कोई तरीका है (शायद कुछ मॉड्यूल स्थापित करके?) रोबोट जैसे व्यवहार का पता लगाने और प्रतिक्रिया करने के लिए? कोई अन्य विचार?

फिलहाल मैं केवल इतना कर सकता हूं कि लॉग के मैनुअल निरीक्षण के आधार पर आईपी पते पर प्रतिबंध लगा दिया जाए और यह केवल एक दीर्घकालिक दीर्घकालिक रणनीति नहीं है।

apache web-crawlers user-agent

— क्रिस
स्रोत

यह देखते हुए कि आप अपाचे मॉड्यूल के बारे में पूछ रहे हैं (mod_evasive देखें) और आपका समाधान कुछ कस्टम लॉग पार्सिंग और iptables नियमों को शामिल कर सकता है, यह विषय ServerFault.com के लिए एक बेहतर उम्मीदवार हो सकता है यदि आपके पास विशिष्ट वनस्पति व्यवहारों को अवरुद्ध करने के बारे में प्रश्न हैं।

— danlefree

जवाबों:

आप एक छिपे हुए पेज से लिंक कर सकते हैं, जब दौरा किया जाता है, तो बॉट के उपयोगकर्ता और आईपी पते पर कब्जा कर लेता है और फिर एक .htaccess फ़ाइल में एक या दोनों को जोड़ देता है जो उन्हें स्थायी रूप से ब्लॉक करता है। यह स्वचालित है इसलिए आपको इसे बनाए रखने के लिए कुछ भी करने की ज़रूरत नहीं है।

— जॉन कोंडे
स्रोत

यह एक बहुत ही दिलचस्प विचार है, हालांकि यदि वे बहुत सामान्य उपयोगकर्ता-एजेंट का उपयोग कर रहे हैं, तो आप किसी भी उपयोगकर्ता-एजेंट को स्वचालित रूप से लॉकआउट नहीं करना चाहेंगे।

— क्रिस

मैं तो आईपी पते पर चिपक जाएगा। इसके अलावा अगर आप आई एड्रेस का उपयोग करते हैं और आईपी के एक ब्लॉक से एक पैटर्न देखते हैं तो आप व्यक्तिगत आईपी की लंबी सूची को बनाए रखने के बजाय आसानी से उन सभी को एक सरल नियम से ब्लॉक कर सकते हैं।

— जॉन कोंडे

आप कर सकते हैं लापरवाही से अपनी साइट क्रॉल करने से बुरा बॉट रोक से वर्णित विधि का उपयोग करें। लेकिन 1) बायपास करना संभव है (खराब बॉट्स - और उनके स्वामी - हो सकता है कि हनीपोट्स की पहचान करना सीखें और उनसे बचने का तरीका जानें); और 2) यह विधि उन वैध उपयोगकर्ताओं को भी अवरुद्ध कर सकती है जिन्हें आईपी को फिर से आवंटित किया गया है जो बॉट का दुरुपयोग करने से संबंधित है। यदि आपकी कानूनी या विनियामक बाध्यता है कि आपकी साइट को अनुक्रमित या स्वचालित रूप से खोजा नहीं गया है, तो आपको उचित प्रमाणीकरण का उपयोग करना चाहिए और केवल प्रमाणित उपयोगकर्ताओं को ही एक्सेस देना चाहिए । बाकी सब सुरक्षित नहीं है।

— फ्री रेडिकल

अछा सुझाव। लेकिन, अगर मैंने इसे लागू किया है, तो मुझे यकीन है कि मैं गलती से हनीपोट को मार कर रख दूंगा और अपनी ही साइट से अवरुद्ध हो जाऊंगा।

— JW01

@ JW01 आपको इससे बचने के लिए बस इतना करना है कि उस पृष्ठ पर न जाएं जो इसे संभालता है। चूंकि इस पर कोई सामग्री नहीं है जो करने के लिए सरल होनी चाहिए।

— जॉन कोंडे

आप अन्य लोगों द्वारा अपाचे मॉड्यूल का उपयोग करके खराब आईपी की पहचान करने के लिए किए गए काम पर रंजित कर सकते हैं जो प्रोजेक्ट हनीपोट के आईपी ब्लैकलिस्ट के साथ इंटरफेस करता है । यदि आप बड़े पैमाने पर ऐसा कर रहे हैं, तो संभवतः हनीपोट चलाने की पेशकश करना विनम्र होगा।

— पीटर टेलर
स्रोत

जब मैंने अपनी साइट पर प्रोजेक्ट हनीपोट के आईपी ब्लैकलिस्ट को जोड़ा तो मैं चकित रह गया। खौफ के साये को रोकते हुए वर्षों की पीड़ा समाप्त हो गई। मुझे लगता है कि आप इसके साथ सर्च इंजन बॉट का भी पता लगा सकते हैं। तो, इसके लिए प्लस 1।

— 18

लेकिन मामले की जड़ यह है: यदि आपके पास सार्वजनिक पृष्ठ हैं, तो उन्हें अनुक्रमित करने की अपेक्षा करें। तो, किसी तरह के प्रमाणीकरण की आवश्यकता है। माइकल हैम्पटन द्वारा उत्तर देखें ।

— 19

जैसा कि गिस्ले हैनीमियर ने एक टिप्पणी में उल्लेख किया है , ऐसा करने का सबसे अच्छा तरीका सभी उपयोगकर्ताओं के लॉगिन की आवश्यकता है, और जो कोई भी लॉग इन नहीं है, उसे प्रतिबंधित सामग्री प्रदान न करें।

यदि आपको किसी कारण से लॉगिन की आवश्यकता नहीं हो सकती है, तो अभी भी कुछ कमियां हैं जिनका आप उपयोग कर सकते हैं (अस्वीकरण: वे दोनों आंशिक रूप से या पूरी तरह से मेरी गलती हैं):

OWASP ModSecurity कोर नियम सेट भी जब बॉट एक ब्राउज़र के रूप में खुद को छिपाने के लिए कदम उठाए हैं (उदाहरण के लिए, faking अपने उपयोगकर्ता-एजेंट स्ट्रिंग), स्वचालन का पता लगाने के लिए बनाया गया नियम के एक नंबर शामिल हैं। यदि आप अपने सर्वर के पूर्ण नियंत्रण में हैं, जैसे कि VPS, समर्पित सर्वर, या इससे कुछ बड़ा, तो आप ModSecurity वाले इन नियमों का उपयोग कर सकते हैं ।

इस नियम सेट में अन्य नियम भी शामिल हैं जो कई प्रकार की अनुचित गतिविधि को रोकते हैं; यदि आपने इसे नहीं देखा है, तो आपको निश्चित रूप से करना चाहिए।
यदि आप अपने सर्वर के पूर्ण नियंत्रण में नहीं हैं (यानी आप साझा वेब होस्टिंग पर हैं) और आपका होस्ट आपको अपने स्वयं के मॉडस असुरक्षा नियमों का उपयोग करने की अनुमति नहीं देता है, तो आप आवेदन स्तर पर कुछ आज़मा सकते हैं, जैसे कि मेरा अपना बुरा व्यवहार । मैंने इस प्रोजेक्ट को 2005 में ब्लॉग स्पैम और कंटेंट स्क्रेपर्स से लड़ने के लिए शुरू किया था, जो आपको चिंता करते हैं। इसे किसी भी PHP- आधारित वेब साइट में जोड़ा जा सकता है।

मुझे यह भी ध्यान देना चाहिए कि खराब व्यवहार नियमों में से कई मोडसिटीसिटी कोर नियम सेट में शामिल किए गए हैं, इसलिए जब तक आप उन नियमों को सक्षम करते हैं, तब तक दोनों को चलाना बेमानी होगा। इन नियमों को कोर नियम सेट में बदनाम व्यवहार से उत्पन्न किया गया है।

— माइकल हैम्पटन
स्रोत