'चुपके' वेब-क्रॉलर का पता लगाना

107

वेब-क्रॉलर का पता लगाने के लिए क्या विकल्प हैं जो पता नहीं करना चाहते हैं?

(मुझे पता है कि लिस्टिंग डिटेक्शन तकनीक स्मार्ट स्टील्थ-क्रॉलर प्रोग्रामर को एक बेहतर मकड़ी बनाने की अनुमति देगी, लेकिन मुझे नहीं लगता कि हम कभी भी स्मार्ट स्टील्थ-क्रॉलर को ब्लॉक कर पाएंगे, केवल वही जो गलतियां करते हैं।)

मैं googlebot और Yahoo जैसे अच्छे क्रॉलर के बारे में बात नहीं कर रहा हूँ! Slurp। मैं एक बॉट को अच्छा मानता हूं यदि यह:

उपयोगकर्ता एजेंट स्ट्रिंग में बॉट के रूप में खुद को पहचानता है
robots.txt पढ़ता है (और इसका पालन करता है)

मैं खराब क्रॉलर के बारे में बात कर रहा हूं , आम उपयोगकर्ता एजेंटों के पीछे छिप रहा हूं , मेरे बैंडविड्थ का उपयोग कर रहा हूं और बदले में मुझे कभी कुछ नहीं दे रहा हूं।

कुछ ट्रैपसाइड हैं जिन्हें अद्यतन सूची (धन्यवाद क्रिस, जीएस) का निर्माण किया जा सकता है :

केवल एक निर्देशिका को जोड़ा जा रहा है (सूचीबद्ध के रूप में अस्वीकृत) robots.txt में,
अदृश्य लिंक जोड़ना (संभवतः rel = "nofollow"?) के रूप में चिह्नित किया गया है।
- शैली = "प्रदर्शन: कोई नहीं;" लिंक या मूल कंटेनर पर
- उच्च z- सूचकांक के साथ एक अन्य तत्व के नीचे रखा गया है
पता लगाएं कि कैपिटलाइज़ेशन को कौन नहीं समझता है,
पता लगाएं कि कौन उत्तर पोस्ट करने की कोशिश करता है लेकिन हमेशा कैप्चा को विफल करता है।
POST- केवल संसाधनों के लिए GET अनुरोधों का पता लगाएं
अनुरोधों के बीच अंतराल का पता लगाएं
अनुरोध किए गए पृष्ठों के आदेश का पता लगाएं
पता लगाएँ कि कौन (लगातार) http पर https संसाधनों का अनुरोध करता है
पता लगाएं कि कौन छवि फ़ाइल का अनुरोध नहीं करता है (यह ज्ञात छवि सक्षम ब्राउज़रों के उपयोगकर्ता-एजेंटों की सूची के साथ संयोजन में आश्चर्यजनक रूप से अच्छा काम करता है)

कुछ जालों को 'अच्छे' और 'बुरे' दोनों बॉट द्वारा ट्रिगर किया जाएगा। आप उन लोगों को श्वेतसूची में जोड़ सकते हैं:

यह एक जाल को ट्रिगर करता है
यह निवेदन है robots.txt?
यह एक और जाल को ट्रिगर नहीं करता है क्योंकि यह पालन करता है robots.txt

यहां एक और महत्वपूर्ण बात है:
कृपया स्क्रीन रीडर का उपयोग करके नेत्रहीन लोगों पर विचार करें: लोगों को आपसे संपर्क करने का तरीका दें, या ब्राउज़िंग जारी रखने के लिए एक (गैर-छवि) कैप्चा को हल करें।

सामान्य मानव आगंतुकों के रूप में खुद को मुखौटा बनाने की कोशिश कर रहे वेब क्रॉलर का स्वचालित रूप से पता लगाने के लिए क्या तरीके हैं।

अद्यतन करें
सवाल यह नहीं है: मैं हर क्रॉलर को कैसे पकड़ूं? सवाल यह है: मैं एक क्रॉलर का पता लगाने के अवसर को अधिकतम कैसे कर सकता हूं।

कुछ मकड़ियों वास्तव में अच्छे हैं, और वास्तव में HTML, xhtml, css जावास्क्रिप्ट, VB स्क्रिप्ट आदि को पार्स और समझते हैं ...
मुझे कोई भ्रम नहीं है: मैं उन्हें हरा नहीं पाऊंगा।

हालांकि आपको आश्चर्य होगा कि कुछ क्रॉलर कितने मूर्ख होते हैं। मूर्खता का सबसे अच्छा उदाहरण (मेरी राय में) होने के नाते: अनुरोध करने से पहले सभी URL को लोअर केस में डालें।

और फिर क्रॉलर्स का एक पूरा झुंड है जो विभिन्न जाल से बचने के लिए सिर्फ 'पर्याप्त अच्छा नहीं' हैं।

web-crawler

— जैको
स्रोत

15

कुछ समय पहले, मैंने एक छोटी सी होस्टिंग कंपनी के साथ काम किया ताकि उन्हें इस समाधान को लागू करने में मदद मिल सके। सिस्टम मैंने किसी भी आईपी पते से अत्यधिक गतिविधि के लिए वेब सर्वर लॉग की जांच की और अपराधियों को ब्लॉक करने के लिए फ़ायरवॉल नियम जारी किए। इसमें http://www.iplists.com/ पर आधारित IP पतों / सीमाओं के श्वेत सूची शामिल थे, जो तब दावा किए गए उपयोगकर्ता-एजेंट स्ट्रिंग्स की जाँच करके आवश्यकतानुसार स्वचालित रूप से अपडेट किए गए थे, और यदि ग्राहक ने वैध मकड़ी होने का दावा किया था, लेकिन नहीं श्वेतसूची, ने यह सत्यापित करने के लिए DNS / रिवर्स-डीएनएस लुकअप किया कि स्रोत आईपी पता बॉट के दावा किए गए मालिक से मेल खाता है। एक विफलता के रूप में, इन कार्यों को ईमेल द्वारा व्यवस्थापक को रिपोर्ट किया गया था, साथ ही गलत मूल्यांकन के मामले में पते को काले / श्वेतसूची के लिंक के साथ।

मैंने उस क्लाइंट से 6 महीने में बात नहीं की है, लेकिन, आखिरी बार मैंने सुना, सिस्टम काफी प्रभावी प्रदर्शन कर रहा था।

साइड पॉइंट: यदि आप हिट-रेट-लिमिटिंग के आधार पर एक समान पहचान प्रणाली करने के बारे में सोच रहे हैं, तो कम से कम एक मिनट (और अधिमानतः कम से कम पांच मिनट) योग का उपयोग करना सुनिश्चित करें। मैं इस तरह की योजनाओं के बारे में बात करने वाले बहुत सारे लोगों को देखता हूं जो किसी को भी ब्लॉक करना चाहते हैं जो एक सेकंड में 5-10 हिट में शीर्ष पर है, जो छवि-भारी पृष्ठों पर झूठी सकारात्मक उत्पन्न कर सकता है (जब तक कि छवियों को टैली से बाहर नहीं किया जाता है) और गलत उत्पन्न करेगा सकारात्मक जब कोई मेरे जैसे व्यक्ति को एक दिलचस्प साइट मिलती है जिसे वह सभी को पढ़ना चाहता है, तो वह पृष्ठभूमि में लोड करने के लिए सभी लिंक खोलता है जबकि वह पहले एक को पढ़ता है।

— डेव शेरोहमान
स्रोत

5

मुझे लगता है कि वेब क्रॉलर को अवरुद्ध करने के कारण गलत सकारात्मक वेब ट्रैफिक को मारता है। आप मूल रूप से क्रॉलर को रोकने के लिए एक खराब प्रयास में अपने उपयोगकर्ता का 99.8% पेशाब कर रहे हैं जो आसानी से बताए गए इस भोले तरीके को बायपास कर सकते हैं। उपयोगकर्ता की पहुंच को अस्वीकार करने या उसे रोकने के लिए एक अच्छा विचार कभी नहीं है क्योंकि यह आपकी साइट के साथ उपयोगकर्ता के अनुभव को नष्ट कर देता है।

— केजेडब्ल्यू

14

प्रोजेक्ट हनीपोट देखें - वे बड़े पैमाने पर बॉट जाल स्थापित कर रहे हैं (और उनके आईपी के साथ DNSRBL है)।

ट्रिकी URL और HTML का उपयोग करें:

<a href="https://stackoverflow.com//example.com/"> = http://example.com/ on http pages.
<a href="page&amp;&#x23;hash"> = page& + #hash

HTML में आप टिप्पणियों, CDATA तत्वों, संस्थाओं, आदि के साथ बहुत सारे ट्रिक का उपयोग कर सकते हैं:

<a href="foo<!--bar-->"> (comment should not be removed)
<script>var haha = '<a href="bot">'</script>
<script>// <!-- </script> <!--><a href="bot"> <!-->

— कोर्नेल
स्रोत

9

एक आसान समाधान एक लिंक बनाना और इसे अदृश्य बनाना है

<a href="iamabot.script" style="display:none;">Don't click me!</a>

निश्चित रूप से आपको उम्मीद करनी चाहिए कि स्रोत कोड को देखने वाले कुछ लोग उस लिंक का अनुसरण करते हैं, यह देखने के लिए कि यह कहाँ जाता है। लेकिन आप उन उपयोगकर्ताओं को कैप्चा के साथ प्रस्तुत कर सकते हैं ...

निश्चित रूप से, मान्य क्रॉलर भी लिंक का अनुसरण करेंगे। लेकिन आपको एक rel = nofollow लागू नहीं करना चाहिए, लेकिन एक मान्य क्रॉलर के संकेत की तलाश करें। (उपयोगकर्ता एजेंट की तरह)

— जॉर्ज शॉर्ली
स्रोत

1

जब तक बॉट लिंक की सीएसएस विशेषताओं की जांच नहीं करता है और लिंक का पालन नहीं करता है क्योंकि यह एक मानव उपयोगकर्ता को दिखाई नहीं देता है ...

— बॉब सोमर

1

लिंक को लेबल करना "मुझे क्लिक न करें" एक बेहतर विचार होगा .. अगर किसी के पास सीएसएस अक्षम (या कोई सीएसएस समर्थन नहीं है), तो लिंक दिखाई देगा ..

— dbr

अच्छा विचार। शायद पाठ को "।" और सीएसएस शैली पृष्ठभूमि से मेल खाने के लिए - यह अधिकांश उपयोगकर्ताओं के लिए अदृश्य बना रही है? या, 1 सेकंड के बाद इसे छिपाने के लिए एक स्क्रिप्ट को चलाएं यह केवल एक बॉट को दिखाई देता है जो जावास्क्रिप्ट छिपी कमांड को लिंक से लिंक नहीं कर सकता है?

— 13:15 पर अंडरवर्ल्ड

1

एसईओ दृष्टिकोण से काली टोपी के दंड से सावधान रहें।

— अल्फ्रेड वालेस

6

एक बात जो आपने सूचीबद्ध नहीं की, वह आमतौर पर खराब क्रॉलर का पता लगाने के लिए उपयोग की जाती है।

हिट की गति, अच्छे वेब क्रॉलर अपनी हिट को तोड़ देंगे ताकि वे अनुरोधों के साथ एक साइट को नष्ट न करें। बुरे लोग तीन कामों में से एक करेंगे:

एक के बाद एक अनुक्रमिक हिट
कुछ पार्सल अनुक्रम में अनुक्रमिक हिट (एक समय में 2 या अधिक)।
एक निश्चित अंतराल पर अनुक्रमिक लिंक मारा

इसके अलावा, कुछ ऑफ़लाइन ब्राउज़िंग प्रोग्राम कई पेजों को खत्म कर देंगे, मुझे यकीन नहीं है कि आईपी एड्रेस द्वारा ब्लॉकिंग शुरू करने के लिए आप किस तरह की दहलीज का उपयोग करना चाहते हैं।

यह विधि मिररिंग या wget जैसे मिररिंग प्रोग्राम भी पकड़ेगी।

यदि बॉट समय अंतराल को यादृच्छिक करता है, तो आप यह देख सकते हैं कि क्या लिंक अनुक्रमिक या गहराई-पहले तरीके से हैं, या आप देख सकते हैं कि क्या बॉट भारी मात्रा में पाठ (जैसे शब्दों में पढ़ने के लिए) को ट्रेस कर रहा है समय की बहुत कम अवधि। कुछ साइटें प्रति घंटे अनुरोधों की संख्या को भी सीमित करती हैं।

दरअसल, मैंने एक विचार कहीं सुना, मुझे याद नहीं कि कहां, कि अगर किसी उपयोगकर्ता को किलोबाइट्स के संदर्भ में बहुत अधिक डेटा मिलता है, तो उन्हें एक कैप्चा के साथ प्रस्तुत किया जा सकता है जो उन्हें साबित करने के लिए कहें कि वे बॉट नहीं हैं। मैंने कभी नहीं देखा है कि हालांकि लागू किया।

लिंक छुपाने पर अद्यतन

जहाँ तक लिंक छुपाने की बात है, आप सीएसएस के साथ एक दूसरे के नीचे एक डिव लगा सकते हैं (इसे ड्रॉ ऑर्डर में पहले रखकर) और संभवतः z- ऑर्डर सेट कर रहे हैं। एक बॉट नजरअंदाज नहीं कर सकता है कि आपके सभी जावास्क्रिप्ट को देखने के बिना कि क्या यह एक मेनू है। कुछ हद तक, अदृश्य DIV तत्वों के अंदर के लिंक को भी सभी जावास्क्रिप्ट को पार्स करने वाले बॉट के बिना अनदेखा नहीं किया जा सकता है।

उस विचार को पूरा करने के लिए, अनछुए जावास्क्रिप्ट को जो संभावित रूप से छिपे हुए तत्वों को दिखा सकता है, उसे जावास्क्रिप्ट पार्सिंग बॉट के सबसेट को मूर्ख बना देगा। और, इसे लागू करने के लिए बहुत काम नहीं है।

— क्रिस
स्रोत

16

"अनदेखी जावास्क्रिप्ट का मतलब है कि आप एक बॉट हैं" तरीकों के साथ प्रमुख दोष: हम में से कुछ NoScript प्लगइन का उपयोग करते हैं। जब तक मैं इस साइट को श्वेत सूची में नहीं रखता, कोई भी साइट मुझ पर जावास्क्रिप्ट नहीं चलाती है और मुझे पूरा यकीन है कि मैं बॉट नहीं हूं।

— डेव शेरोहमान

2

बॉट अब जावास्क्रिप्ट को निष्पादित कर सकता है ... यह 2013 के लिए क्रिसमस के लिए है। तो वहाँ पूरा तर्क जाता है। कौन कहता है कि वेब क्रॉलर अनुक्रमिक चयन में साइटों पर जाते हैं? एक और बड़ी धारणा।

— केजेडब्ल्यू

1

जावास्क्रिप्ट केवल एक हनीपोट लिंक को दिखाने के लिए थी। विचार यह है कि बॉट्स जावास्क्रिप्ट को पार्स करेगा जो हनीपोट लिंक को दिखाई देगा, जिससे लिंक का पालन करने की अधिक संभावना होगी। हालांकि एक वास्तविक उपयोगकर्ता के लिए, लिंक को दिखाई देने वाले कोड को कभी भी निष्पादित नहीं किया जाएगा। इस प्रकार NoScript उपयोगकर्ता, किसी के साथ भी जो बेतरतीब ढंग से निष्पादित कार्य नहीं करता है, ठीक होगा। उस ने कहा, मुझे यकीन नहीं है कि क्यों / कैसे एक बोट बेतरतीब ढंग से कोड निष्पादित कर रहा होगा, और अगर यह निर्धारित करने के लिए एक स्थैतिक विश्लेषण कर रहा था कि क्या कोई तत्व दिखाई दे सकता है, तो यह एक फैंसी बॉट होगा।

— रिक

4

एक साधारण बॉट डिटेक्शन विधि जो मैंने फॉर्म के लिए सुनी है वह छिपी हुई इनपुट तकनीक है। यदि आप फॉर्म को सुरक्षित करने की कोशिश कर रहे हैं तो एक आईडी के साथ फॉर्म में एक इनपुट डालें जो पूरी तरह से वैध है। फिर इसे छुपाने के लिए बाहरी फाइल में css का उपयोग करें। या यदि आप वास्तव में पागल हैं, तो पेज लोड पर इनपुट बॉक्स को छिपाने के लिए jquery की तरह कुछ सेटअप करें। यदि आप यह अधिकार करते हैं तो मुझे लगता है कि किसी बॉट के लिए यह पता लगाना बहुत कठिन होगा। आप जानते हैं कि उन बॉट्स के पास प्रकृति में एक पृष्ठ पर सब कुछ भरने के लिए होता है, खासकर यदि आप अपने छिपे हुए इनपुट को आईडी = "fname", इत्यादि के रूप में देते हैं।

— चंचल नोब
स्रोत

2

नहीं, अगर बॉट्स एक नियमित ब्राउज़र की तरह ही जॉकरी के खत्म होने का इंतजार करने में सक्षम हैं। इसने 00 के शुरुआती दिनों में अच्छी तरह से काम किया होगा

— केजेडब्ल्यू

3

यह वास्तव में अच्छा उपयोगकर्ता एजेंट तार के साथ रखने के लिए आसान नहीं है। ब्राउज़र संस्करण आते हैं और जाते हैं। विभिन्न व्यवहारों द्वारा उपयोगकर्ता एजेंट के तार के बारे में एक आंकड़ा बनाना दिलचस्प चीजों को प्रकट कर सकता है।

मैं नहीं जानता कि यह कितनी दूर स्वचालित हो सकता है, लेकिन कम से कम यह एक अलग बात है।

— iny
स्रोत

3

अनटाइटेड, लेकिन यहां उन उपयोगकर्ता-एजेंटों की एक अच्छी सूची है, जिनसे आप नियमित रूप से अभिव्यक्ति कर सकते हैं। तुम वहाँ से ज्यादातर रास्ते में मिल सकता है:

ADSARobot|ah-ha|almaden|aktuelles|Anarchie|amzn_assoc|ASPSeek|ASSORT|ATHENS|Atomz|attach|attache|autoemailspider|BackWeb|Bandit|BatchFTP|bdfetch|big.brother|BlackWidow|bmclient|Boston\ Project|BravoBrian\ SpiderEngine\ MarcoPolo|Bot\ mailto:craftbot@yahoo.com|Buddy|Bullseye|bumblebee|capture|CherryPicker|ChinaClaw|CICC|clipping|Collector|Copier|Crescent|Crescent\ Internet\ ToolPak|Custo|cyberalert|DA$|Deweb|diagem|Digger|Digimarc|DIIbot|DISCo|DISCo\ Pump|DISCoFinder|Download\ Demon|Download\ Wonder|Downloader|Drip|DSurf15a|DTS.Agent|EasyDL|eCatch|ecollector|efp@gmx\.net|Email\ Extractor|EirGrabber|email|EmailCollector|EmailSiphon|EmailWolf|Express\ WebPictures|ExtractorPro|EyeNetIE|FavOrg|fastlwspider|Favorites\ Sweeper|Fetch|FEZhead|FileHound|FlashGet\ WebWasher|FlickBot|fluffy|FrontPage|GalaxyBot|Generic|Getleft|GetRight|GetSmart|GetWeb!|GetWebPage|gigabaz|Girafabot|Go\!Zilla|Go!Zilla|Go-Ahead-Got-It|GornKer|gotit|Grabber|GrabNet|Grafula|Green\ Research|grub-client|Harvest|hhjhj@yahoo|hloader|HMView|HomePageSearch|http\ generic|HTTrack|httpdown|httrack|ia_archiver|IBM_Planetwide|Image\ Stripper|Image\ Sucker|imagefetch|IncyWincy|Indy*Library|Indy\ Library|informant|Ingelin|InterGET|Internet\ Ninja|InternetLinkagent|Internet\ Ninja|InternetSeer\.com|Iria|Irvine|JBH*agent|JetCar|JOC|JOC\ Web\ Spider|JustView|KWebGet|Lachesis|larbin|LeechFTP|LexiBot|lftp|libwww|likse|Link|Link*Sleuth|LINKS\ ARoMATIZED|LinkWalker|LWP|lwp-trivial|Mag-Net|Magnet|Mac\ Finder|Mag-Net|Mass\ Downloader|MCspider|Memo|Microsoft.URL|MIDown\ tool|Mirror|Missigua\ Locator|Mister\ PiX|MMMtoCrawl\/UrlDispatcherLLL|^Mozilla$|Mozilla.*Indy|Mozilla.*NEWT|Mozilla*MSIECrawler|MS\ FrontPage*|MSFrontPage|MSIECrawler|MSProxy|multithreaddb|nationaldirectory|Navroad|NearSite|NetAnts|NetCarta|NetMechanic|netprospector|NetResearchServer|NetSpider|Net\ Vampire|NetZIP|NetZip\ Downloader|NetZippy|NEWT|NICErsPRO|Ninja|NPBot|Octopus|Offline\ Explorer|Offline\ Navigator|OpaL|Openfind|OpenTextSiteCrawler|OrangeBot|PageGrabber|Papa\ Foto|PackRat|pavuk|pcBrowser|PersonaPilot|Ping|PingALink|Pockey|Proxy|psbot|PSurf|puf|Pump|PushSite|QRVA|RealDownload|Reaper|Recorder|ReGet|replacer|RepoMonkey|Robozilla|Rover|RPT-HTTPClient|Rsync|Scooter|SearchExpress|searchhippo|searchterms\.it|Second\ Street\ Research|Seeker|Shai|Siphon|sitecheck|sitecheck.internetseer.com|SiteSnagger|SlySearch|SmartDownload|snagger|Snake|SpaceBison|Spegla|SpiderBot|sproose|SqWorm|Stripper|Sucker|SuperBot|SuperHTTP|Surfbot|SurfWalker|Szukacz|tAkeOut|tarspider|Teleport\ Pro|Templeton|TrueRobot|TV33_Mercator|UIowaCrawler|UtilMind|URLSpiderPro|URL_Spider_Pro|Vacuum|vagabondo|vayala|visibilitygap|VoidEYE|vspider|Web\ Downloader|w3mir|Web\ Data\ Extractor|Web\ Image\ Collector|Web\ Sucker|Wweb|WebAuto|WebBandit|web\.by\.mail|Webclipping|webcollage|webcollector|WebCopier|webcraft@bea|webdevil|webdownloader|Webdup|WebEMailExtrac|WebFetch|WebGo\ IS|WebHook|Webinator|WebLeacher|WEBMASTERS|WebMiner|WebMirror|webmole|WebReaper|WebSauger|Website|Website\ eXtractor|Website\ Quester|WebSnake|Webster|WebStripper|websucker|webvac|webwalk|webweasel|WebWhacker|WebZIP|Wget|Whacker|whizbang|WhosTalking|Widow|WISEbot|WWWOFFLE|x-Tractor|^Xaldon\ WebSpider|WUMPUS|Xenu|XGET|Zeus.*Webster|Zeus [NC]

इससे लिया गया: http://perishablepress.com/press/2007/10/15/ultimate-htaccess-blacklist-2-compressed-version/

— ब्रायन आर्मस्ट्रांग
स्रोत

1

आप रेफरल भी चेक कर सकते हैं। कोई भी रेफरल बॉट संदेह नहीं बढ़ा सकता था। खराब रेफरल का मतलब है निश्चित रूप से यह ब्राउज़र नहीं है।

अदृश्य लिंक जोड़ना (संभवतः rel = "nofollow"?) के रूप में चिह्नित किया गया है।

* style="display: none;" on link or parent container
* placed underneath another element with higher z-index

मैं ऐसा नहीं करूँगा। आप काली टोपी एसईओ के लिए Google द्वारा ब्लैकलिस्ट किए गए समाप्त कर सकते हैं :)

— दानूबियन नाविक
स्रोत

1

वास्तव में क्या है और यह आपको ब्लैक लिस्टेड क्यों मिलेगा?

— conteh

1

मैं वर्तमान में एक कंपनी के लिए काम करता हूं जो उन्हें वर्गीकृत करने के लिए वेब साइटों को स्कैन करती है। हम मालवेयर के लिए साइट्स भी चेक करते हैं।

मेरे अनुभव में हमारे वेब क्रॉलर के नंबर एक ब्लॉकर्स (जो बेशक एक IE या फ़ायरफ़ॉक्स यूए का उपयोग करता है और robots.txt। Duh का पालन नहीं करता है।) वे साइटें हैं जो जानबूझकर मैलवेयर होस्ट कर रही हैं। यह एक दर्द है क्योंकि साइट तब वापस एक मानव के पास आती है जिसे साइट को मैन्युअल रूप से लोड करना है, इसे वर्गीकृत करना और मैलवेयर के लिए जांचना है।

मैं बस कह रहा हूँ, वेब क्रॉलर को अवरुद्ध करके आप खुद को किसी बुरी कंपनी में डाल रहे हैं।

बेशक, अगर वे बुरी तरह से अशिष्ट हैं और अपने बैंडविड्थ के टन को चूसते हैं तो यह एक अलग कहानी है क्योंकि तब आपको एक अच्छा कारण मिल गया है।

— ज़ैन लिंक्स को दर्शाता है
स्रोत

15

मुझे क्षमा करें, लेकिन यदि आप एक क्रॉलर चलाते हैं जो robots.txt का पालन नहीं करता है, तो आप नियमों का पालन नहीं कर रहे हैं। नियमों का पालन न करके, आप खुद को वास्तव में किसी बुरी कंपनी में डाल रहे हैं। यह सुझाव देते हुए कि वेबसाइट के मालिक द्वारा (रोबोट्सटेक्स्ट में) नियमावली को लागू करना गलत व्यवहार है, आप गलत तरीके से उल्टे मुद्दे को उछाल रहे हैं। आप मूल रूप से कहते हैं कि आप यह नहीं समझते हैं कि सामग्री का सही मालिक कौन है।

— जैको

11

@ तंबाकू: यदि कोई क्रॉलर मालवेयर की तलाश में नियमों का पालन करता है, तो उसे कभी नहीं मिलेगा। मालवेयर लेखकों से बात करें।

— ज़ैन लिंक्स

5

@ तंबाकू: गैर-अनुपालन क्रॉलरों को अवरुद्ध करने की कोशिश करने वाले कानूनी साइटों का प्रतिशत? 1% से कम। मैलवेयर साइटें जो कोशिश करती हैं? 60% से अधिक। तो हाँ, यह संदिग्ध है।

— ज़ैन लिंक्स

4

@ तंबाकू वास्तव में नहीं है, अगर यह सार्वजनिक है तो वेब पर कोई सामग्री का कोई स्वामी नहीं है। बिना कॉपी और पेस्ट किए मैन्युअल रूप से ऐसा करने वाले को पुरस्कार नहीं दिया जाना चाहिए। इस संपूर्ण कॉपीराइट अवधारणा को इंटरनेट पर समाप्त करने की आवश्यकता है। केवल रचनात्मक नवाचार और विश्वास मूल्य का निर्माण कर सकते हैं और लोगों के ध्यान के योग्य हैं, न कि अपारदर्शी कानूनी घूंघट के कुछ खतरे से।

— केजेडब्ल्यू

यह सब स्पष्ट रूप से इंगित करता है कि साइट चलाने वाले व्यक्ति ने साइट पर बहुत समय लगाया और सोचा, और उनके पास कुछ हद तक तकनीकी कौशल है। इतना जरूर है कि ज्यादातर बेल कर्व के नियम हैं।

— पार्थियन ने

1

लोग व्यापक क्रॉलर को संबोधित करते रहते हैं लेकिन क्रॉलर को नहीं जो आपकी वेबसाइट के लिए विशिष्ट हैं।

मैं चुपके क्रॉलर लिखता हूं और अगर वे व्यक्तिगत रूप से शहद के बर्तन की कोई राशि नहीं बनाते हैं या छिपे हुए लिंक का कोई प्रभाव नहीं होगा - विशेष क्रॉलर का पता लगाने का एकमात्र वास्तविक तरीका कनेक्शन पैटर्न का निरीक्षण करना है।

सबसे अच्छे सिस्टम एआई (जैसे लिंक्डिन) का उपयोग करते हैं जो इसे संबोधित करने के लिए एआई का उपयोग करते हैं।
सबसे आसान समाधान लॉग पार्सर है जो आईपी कनेक्शन का विश्लेषण करता है और बस उन आईपी को ब्लैकलिस्ट करता है या कैप्चा की सेवा देता है, कम से कम अस्थायी।

उदाहरण के लिए
अगर आईपी एक्स को हर 2 सेकंड में देखा जाता है, foo.com/cars/*.htmlलेकिन किसी अन्य पेज से नहीं देखा जाता है - तो यह सबसे अधिक संभावना है कि एक बॉट या एक भूखा बिजली उपयोगकर्ता।

वैकल्पिक रूप से विभिन्न जावास्क्रिप्ट चुनौतियां हैं जो सुरक्षा के रूप में कार्य करती हैं (जैसे क्लाउडफ़्लारे के एंटी-बॉट सिस्टम), लेकिन वे आसानी से हल करने योग्य हैं, आप कुछ कस्टम लिख सकते हैं और क्रॉलर के लिए प्रयास के लायक नहीं बनाने के लिए यह पर्याप्त रूप से हानिकारक हो सकता है।

हालाँकि, आपको एक प्रश्न पूछना चाहिए कि क्या आप झूठे-सकारात्मक कानूनी उपयोगकर्ताओं के लिए तैयार हैं और बॉट ट्रैफिक को रोकने के लिए उनके लिए असुविधा का परिचय देते हैं। सार्वजनिक डेटा की सुरक्षा एक असंभव विरोधाभास है।

— प्रकट करता है
स्रोत

-1

संक्षिप्त उत्तर: यदि मध्य स्तर का प्रोग्रामर जानता है कि वह क्या कर रहा है तो आप वास्तविक उपयोगकर्ता को प्रभावित किए बिना क्रॉलर का पता नहीं लगा पाएंगे। सार्वजनिक रूप से आपकी जानकारी होने के बाद आप इसे क्रॉलर के खिलाफ बचाव नहीं कर पाएंगे ... यह 1 संशोधन के अधिकार की तरह है :)

— एलेक्स मैन
स्रोत