नायडू मकड़ियों को कैसे रोकें


15

मेरी ज्यादातर यात्राएं नायडू मकड़ियों से होती हैं। मुझे नहीं लगता कि यह खोज इंजनों को बिल्कुल मदद करता है इसलिए मैं सोच रहा हूं कि उन्हें कैसे अवरुद्ध किया जाए। यह iptables के माध्यम से किया जा सकता है? मैं अपने वेबसर्वर के रूप में nginx का उपयोग कर रहा हूं।


2
मुझे क्यों नहीं करना चाहिए मुझे चीनी ट्रैफ़िक नहीं चाहिए।
झियानक

6
मैं यह नहीं कह रहा हूं कि आपको ऐसा नहीं करना चाहिए, मैं पूछ रहा हूं कि आखिर परेशान क्यों हो रहा हूं। क्या वे आपको किसी तरह से चोट पहुँचा रहे हैं? क्या सिर्फ अनदेखी करना आसान नहीं है? "चीनी ट्रैफ़िक नहीं चाहते" वास्तव में यहाँ एक जवाब नहीं है, बस सीमा रेखा xenophobia है। और एक खोज इंजन को अवरुद्ध करना लगभग चीनी को अवरुद्ध करने के समान नहीं है, इसलिए आप वास्तव में समझ में नहीं आ रहे हैं। यह मुझे लग रहा था कि आप एक दोषपूर्ण समस्या के आधार पर समाधान की मांग कर रहे हैं। लेकिन जाहिरा तौर पर आप बस मनमाने ढंग से कुछ मकड़ी को रोकना चाहते हैं, इसलिए आगे बढ़ें, मुझे लगता है।
सु '

7
@ सू 'मैंने पाया कि नायडू मकड़ी ने मेरी साइट पर बेहद आक्रामक तरीके से रेंगते हुए, जिससे वैध यातायात के लिए पकड़ बनाई। इसके अलावा, मैंने यह भी पाया कि नायडू मकड़ी robots.txtनियमों का पालन ​​नहीं करता है।
स्टारबिम्रेनबोलाब्स

2
मैं Baidu मकड़ियों से प्रति सेकंड लगभग 1-2 हिट प्राप्त करता हूं। प्रत्येक हिट मेरे सर्वर पर एक नया सत्र फ़ाइल उत्पन्न करता है। मेरे पास उन सत्र फ़ाइलों को हटाने के लिए एक स्क्रिप्ट है, लेकिन उन मकड़ियों ने मेरा MySQL सर्वर भी अधिभारित किया है। मैं निश्चित रूप से उन्हें ब्लॉक करना चाहता हूं।
ब्यूटिक बटुक

2
इस बात की पुष्टि कर सकता है कि बैडस्पाइडर या बैडस्पाइडर के रूप में प्रस्तुत करने वाली साइटें अनैतिक रूप से क्रॉल करती हैं और robots.txt निर्देशों की अनदेखी करती हैं।
जेएमसी

जवाबों:


8

अपने robots.txt में जोड़ें

#Baiduspider
User-agent: Baiduspider
Disallow: /

#Yandex
User-agent: Yandex
Disallow: /

5
क्या होगा अगर वे robots.txt का सम्मान नहीं करते हैं?
झियानक

5
मुझे पता है कि "Baiduspider / 2.0" चीनी आईपी पते से पहुंच मेरी साइट पर robots.txt का पालन नहीं करता है। इसके अलावा, वे अक्सर एक ही आईपी एड्रेस ब्लॉक से समन्वित एक्सेस (कुछ मिनटों के अलावा) का उपयोग करते हैं जो "Baiduspider" उपयोगकर्ता एजेंट आईडी का उपयोग नहीं करते हैं।
mgkrebbs

यैंडेक्स रोबोटों का पालन करता है। तब तक मैंने उन्हें बंद कर दिया था जब तक हमें एहसास नहीं हुआ कि हमारे व्यापार का एक अच्छा हिस्सा रूस से आता है और ब्लॉक को हटाना पड़ा। Baidu, आपको नेटब्लॉक की जांच करनी होगी। सभी Baidu की घोषणा नहीं की गई UA वास्तव में Baidu है, इसलिए आपको वैध Baidu ट्रैफ़िक के लिए robots.txt ब्लॉक करने की आवश्यकता है और फिर जो रहता है उसके लिए अपने .Ataccess में UA स्ट्रिंग ब्लॉक करें और फिर ब्लॉक आइडेंटिफिकेशन और इंकार के लिए अपना जीवन बर्बाद कर रहे हैं। बाकी जो UA स्ट्रिंग ब्लॉक के आसपास मिलता है। यह सिर्फ उतना ही काम है जितना कि आपके सर्वर को ट्रैफिक लेने के लिए तैयार करना।
फिस्को लैब्स

2
मेरे पास User-agent: *और बैडस्पाइडर एक्सेस जारी है।
रीयरियरपोस्ट

3
यैंडेक्स रूसी बाजार के लिए एक अलग खोज इंजन है, बस इसे यहां शामिल करें जब सवाल इसके बारे में बिल्कुल भी नहीं पूछता है और इसके बारे में कुछ भी लिखे बिना यह कुछ हद तक गैर-जिम्मेदार है।
कलेक्टर

7

मैंने Baiduspiderअपनी साइट पर किसी भी कंटेंट को एक्सेस करने से सिर्फ चीनी सर्चबॉट को सफलतापूर्वक ब्लॉक किया है । मैंने निम्नलिखित कारणों से ऐसा करने का निर्णय लिया।

ब्लॉक करने का निर्णय लेने के कारण

  1. मेरे सर्वर से लगभग 20 वाँ अनुरोध एक नायडू बॉट का था। यह अपवित्र व्यवहार है। मेरी साइट बैंडविड्थ उपयोग के 5% के लिए बैडबोट खाता है।
  2. मैं अपनी साइट पर संसाधनों को रखने के लिए बहुत प्रयास करता हूं और गति और बैंडविड्थ में छोटी जीत बनाने के लिए ब्राउज़र कैशिंग जैसी प्रौद्योगिकी का उपयोग करता हूं। बैदूबोट को अवरुद्ध करके 5% मुक्त करने पर विचार करना तर्कसंगत है।
  3. कुछ चीनी ट्रैफ़िक खोने की संभावना व्यवसाय के लिए एक स्वीकार्य जोखिम है क्योंकि साइट की सामग्री भौगोलिक रूप से यूके के लिए विशिष्ट है, कोई चीनी भाषा संस्करण नहीं है और राजस्व यूके के बाजार में लक्षित विज्ञापन से उत्पन्न होता है।

इसलिए मुझे आशा है कि सु 'और अन्य जोनोफोबिया के बारे में चिंतित हैं, यह समझेंगे कि यह निर्णय एक अप्रकाशित अनुरोधों की एक कूल-हेडेड प्रतिक्रिया है।

तरीका

Baiduspider कई अलग-अलग IP पतों का उपयोग करके मेरे सर्वर तक पहुँचता है, लेकिन ये पते कुछ श्रेणियों के अंदर आते हैं। तो मेरी .htaccess फ़ाइल में अब निम्नलिखित पंक्तियाँ हैं:

order allow,deny 
allow from all
# Block access to Baiduspider 
deny from 180.76.5.0/24 180.76.6.0/24 123.125.71.0/24 220.181.108.0/24 

नीचे की रेखा मूल रूप से 4 आईपी रेंजों का वर्णन करती है जिसमें मुझे पता है कि बैडस्पीडर और ओनली बैडस्पीडर मेरे सर्वर तक पहुंचता है। 4 श्रेणियों में से प्रत्येक 256 लगातार पते (कुल 1024) है। कृपया ध्यान दें, deny from...यदि आप CIDR पर्वतमाला पर रीड-अप नहीं करते हैं, तो लाइन पर आईपी पर्वतमाला के लिए सिंटैक्स बहुत भ्रामक हो सकता है। बस यह समझें कि 0/240 से शुरू होने वाले 256 साइज़ रेंज का 180.76.5.0/24मतलब वास्तव में हर आईपी एड्रेस के बीच 180.76.5.0और है 180.76.5.255। हाँ, विशेष रूप से स्पष्ट नहीं है! लेकिन अगर आप सीखना चाहते हैं कि आप क्यों या केवल भ्रमित होने का आनंद लेना चाहते हैं तो http://www.mediawiki.org/wiki/Help:Range.blocks पर जाएं

सारांश

इंटरनेट मुक्त, खुला और निष्पक्ष होना चाहिए। लेकिन इसका मतलब है कि Baidu जैसे संगठन Robots.txt का पालन करना सीख रहे हैं और यह क्रॉल की नियमितता के साथ कम लालची है। मेरे समाधान में बहुत शक्तिशाली सेटिंग्स के साथ छेड़छाड़ करना शामिल है ताकि आप .htaccess फ़ाइल के साथ गड़बड़ करने से पहले अपने मूल का बैकअप लेना सुनिश्चित करें, यदि आप अपने सर्वर को महिमा के एक झटके में नीचे ले जाने के लिए तैयार हैं। अपने जोख़िम पर आगे बढ़ें।


उनका IP पता ब्लॉक बदल सकता है, इसलिए इसे समय
बजे

5

robots.txtअपनी साइट के क्रॉलिंग को हटाने के लिए आप निम्नलिखित निर्देशों का उपयोग कर सकते हैं ।

# robots.txt
User-agent: Baiduspider
Disallow: /

हालाँकि, क्रॉलर आपके robots.txt की सामग्री को अनदेखा करने का निर्णय ले सकते हैं। इसके अलावा, फ़ाइल को खोज इंजन द्वारा कैश किया जा सकता है और परिवर्तन प्रतिबिंबित होने से पहले समय लगता है।

सबसे प्रभावी दृष्टिकोण आपके सर्वर क्षमताओं का उपयोग करना है। nginx.confBaidu को सर्वर स्तर पर ब्लॉक करने के लिए अपनी फ़ाइल में निम्न नियम जोड़ें ।

if ($http_user_agent ~* ^Baiduspider) {
  return 403;
}

परिवर्तनों को लागू करने के लिए Nginx को पुनः आरंभ या पुनः लोड करना याद रखें।


3

बस Baidu को अवरुद्ध करने का निर्णय लिया गया क्योंकि ट्रैफ़िक की मात्रा जो हमें दे रही थी वह उनके आक्रामक स्कैनिंग के लिए बहुत नगण्य थी। इसके अलावा, वे अब एक एजेंट चलाते हैं जो एक ब्राउज़र को लागू करता है और जावास्क्रिप्ट कोड (जैसे Google विश्लेषिकी) लॉन्च करता है और हमारे आँकड़ों को गड़बड़ कर देता है।

अच्छा संस्करण निम्नलिखित के साथ आपके robots.txt को अपडेट कर रहा है

User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-video
Disallow: /
User-agent: Baiduspider-image
Disallow: /

लेकिन यह देखते हुए कि दूसरों ने यहां क्या लिखा है और एक उपयोगकर्ता-एजेंट का उपयोग करते हुए जो अपनी उपस्थिति को छिपाता है मैं उनके आईपी पते को पूरी तरह से अवरुद्ध कर दूंगा। निम्नलिखित यह है कि यह nginx में कैसे किया जाता है

# Baidu crawlers
deny 123.125.71.0/24;
deny 180.76.5.0/24;
deny 180.76.15.0/24;
deny 220.181.108.0/24;

2

Wordpress समाधान (सबसे अच्छा नहीं लेकिन मदद करता है)

बायडू मकड़ी के साथ एक ही समस्या, वह आक्रामक जो मेरे बॉक्स में शीर्ष का उपयोग करके मेरे कंसोल में 35 से अधिक स्थान पर है। जाहिर है कि 35 पर चलने वाले अनुरोधों के बाहर भी एक तेज कंप्यूटर प्रभावी ढंग से संभाल नहीं सकता है ...।

मैंने IP की संख्या का पता लगाया (उस विश्वविद्यालय भवन से ????) कई सैकड़ों होने के लिए, मुख्य रूप से दो उपयोगकर्ता के साथ)

प्रत्यक्ष परिणाम? जैसा कि मेरे पास एक क्लाउड सर्वर है, मुझे उसी तरह के उच्चतर मेमोरी में अपग्रेड करना है ताकि एक प्रतिक्रिया देने की अनुमति मिल सके।

पिछला उत्तर:

#Baiduspider
User-agent: Baiduspider
Disallow: /

Baidu Robot.txt संकेत का सम्मान करने में पूरी तरह असमर्थ है।

मैंने क्या किया:

मैंने Wordpress (मुक्त) के लिए WP-Ban प्लगइन स्थापित किया और निम्नलिखित पर प्रतिबंध लगाया:

उपयोगकर्ता एजेंट:

  • Baiduspider+(+http://www.baidu.com/search/spider.htm)

  • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

इसके अलावा Wp Super Cache का उपयोग करके मैं एक स्थिर पृष्ठ के सापेक्ष त्रुटि पृष्ठ को फिर से संबोधित करता हूं, इस प्रकार पूरे वर्डप्रेस इंस्टॉलेशन पर प्रतिबंध लगाने वाले उपयोगकर्ता के लिए कम से कम / या नहीं होता है।

(यह मानक वर्डप्रेस ब्लाब्लाब्ला है, इसलिए हर कोई एक वर्डप्रेस प्लगइन स्थापित करने में सक्षम हो सकता है, क्योंकि इस प्रक्रिया के लिए कोई कोडिंग या एफ़टीपी एक्सेस की आवश्यकता नहीं है)

मैं हर किसी के साथ सहमत हूं: इंटरनेट मुफ्त है, जो कोई भी या जो भी आखिरी चीज है, उस पर प्रतिबंध लगा देना चाहिए, लेकिन बैद्यू ने आज मुझे $ 40 अमरीकी डालर / महीने का खर्च दिया है, बस पोर्टुइगिस में लिखे गए एक वेबसाइड को मकड़ी बनाने के लिए, और अगर कुछ हैं बहुत सारे चीनी लोग और आगंतुक इस भाषा को पढ़ने और समझने में सक्षम हैं।


1

आप ngx_http_access_modulenginx का उपयोग करके आईपी पते से ब्लॉक कर सकते हैं । किसी एक IP को ब्लॉक करने के लिए आप conf फाइल की तरह एक लाइन जोड़ सकते हैं

deny 12.34.567.1;

एक सीमा को ब्लॉक करने के लिए, 24-बिट सबनेट ब्लॉक (256 आईपी पतों में) के लिए CIDR नोटेशन का उपयोग करें , 12.34.567.1/24जिसमें 12.34.567.1 IP पता शामिल है। अधिक विवरण के लिए, उदाहरण के लिए, यह पृष्ठ देखें


1

के साथ .htaccess का प्रयोग करें

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Baidu [NC]
RewriteRule .*  - [L,F]

"रिवरटाइंगइन ऑन" आपको अनुमति देता है कि निम्नलिखित पंक्तियों को सही ढंग से पार्स किया गया है। HTTP_USER_AGENT वह रेखा है जहां मकड़ियाँ अपनी पहचान कर रही हैं। यदि लाइन "MJ12bot" या "Baidu" है तो स्थिति सही है। NC का अर्थ है "केस-संवेदी नहीं" और आप OR के साथ स्थितियों की श्रृंखला बना सकते हैं। अंतिम पंक्ति में "OR" नहीं होना चाहिए या नियम काम नहीं करता है।

Baidu विशेष रूप से बुरा है क्योंकि यह Wordpress प्रविष्टियों ("fckeditor", "wp-content") को पढ़ने की कोशिश करता है जिसके लिए बिल्कुल कोई कारण नहीं है। MJ12bot भी बुरे क्रिटर्स में से एक है।

रीराइट नियम का अर्थ है कि सभी फाइलों तक पहुंचने के लिए मकड़ी को 403 निषिद्ध ([F]) ब्लॉक करें। (किसी भी फाइल के लिए एक नियमित अभिव्यक्ति है) और htaccess के आगे मूल्यांकन ([L]) को रोकें।


1
Fझंडा निकलता है L, तो आप के लिए स्पष्ट रूप से शामिल की जरूरत नहीं है Lयहाँ झंडा। इसके अलावा, एक पैटर्न ^.*Baiduबस के रूप में ही है Baidu
MrWhite
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.