क्या बॉट्स वास्तव में एक साइट पर देने लायक हैं?


11

कई बॉट्स लिखे जाने के बाद, और एक साइट को क्रॉल करने के लिए होने वाली रैंडम बॉट्स की भारी मात्रा को देखा, मैं एक वेबमास्टर के रूप में सोच रहा हूं कि क्या बॉट्स वास्तव में किसी साइट पर देने लायक हैं?

मेरा पहला विचार यह है कि साइट पर बॉट की अनुमति देना संभावित रूप से वास्तविक ट्रैफ़िक ला सकता है। क्या बॉट्स की अनुमति देने का कोई कारण है जो किसी साइट पर वास्तविक ट्रैफ़िक भेजने के लिए नहीं जाना जाता है, और आप इन "अच्छे" बॉट को कैसे स्पॉट करते हैं?


1
+1: अच्छा सवाल; हालाँकि आपके प्रश्न का उत्तर देना कठिन है क्योंकि बहुत सारे बॉट हैं।
जिस्टोलोएन

@Zistoloen: हाँ, मुझे पता है कि यह एक कठिन सवाल है; वास्तव में, कारण मैंने पूछा क्योंकि एक गैर-प्रमुख खोज इंजन है जिसके बारे में मुझे पता है कि अरबों पृष्ठों को अनुक्रमित किया गया था जो शिकायत कर रहे थे कि वे बड़ी मात्रा में वेब तक नहीं पहुंच पा रहे थे क्योंकि साइटें गैर-प्रमुख खोज इंजनों को अवरुद्ध करने का प्रयास कर रही थीं।
ब्लंडर्स


@blunders समय निकालने के लिए धन्यवाद। अगर मैं इस सवाल का जवाब देने में सक्षम था तो मैंने इसे खुद संपादित किया होगा :)
DisgruntledGoat

@DisgruntledGoat: कोई समस्या नहीं, संपादन के लिए धन्यवाद!
भूलों

जवाबों:


11

सामान्य बॉट्स के दायरे में, यह सब इस बात पर निर्भर करता है कि आप क्या सराहना करते हैं और केवल आप ही यह तय कर सकते हैं। बेशक गूगल, बिंग / एमएसएन / याहू !, Baidu और यांडेक्स है। ये प्रमुख खोज इंजन हैं। विभिन्न एसईओ और बैकलिंक साइटें भी हैं। सही या गलत, मैं अनुमति देता हूं कि कुछ बड़े लोगों की मेरी साइट तक पहुंच है, लेकिन आम तौर पर, वे बेकार साइट हैं। मैं न केवल robots.txt में, बल्कि डोमेन नाम और आईपी पते से आर्काइव.ऑर्ग को ब्लॉक करता हूं। इसका कारण यह है कि वे robots.txt को बड़े समय तक अनदेखा करते हैं! यह एक ऐसी चीज है जिसके लिए आपको एक महसूस करने की आवश्यकता है। एजेंट नामों से मूर्ख मत बनो। अक्सर वे बुरे लोगों द्वारा जाली होते हैं। अब दिन, मुझे Baidu होने का दावा करने वाले स्रोतों से हजारों पृष्ठ अनुरोध मिल रहे हैं, लेकिन नहीं हैं। डोमेन नाम और आईपी एड्रेस ब्लॉक द्वारा इन मकड़ियों को जानें और उनसे उस स्तर पर निपटना सीखें। अच्छे लोग robots.txt को मानते हैं।

लेकिन मुझे आपको चेतावनी देनी चाहिए, वहाँ एक बॉट ऑफ स्टील्थ बॉट्स, बदमाश बॉट्स, स्क्रेपर्स हैं, और इसी तरह आप अपने लॉग विश्लेषण को बार-बार खोजना और ब्लॉक करना चाहेंगे। यह ५ पक ५! लेकिन इसे किया ही जाना है। इन दिनों उनसे सबसे बड़ा खतरा आपकी साइट पर कम गुणवत्ता वाले लिंक हैं। इस साल लागू किया गया मेरा अपडेटेड एंटी-बॉट सुरक्षा कोड 7700 कम गुणवत्ता वाले लिंक को स्वचालित रूप से गिरा दिया है। बेशक, मेरे कोड को अभी भी काम की आवश्यकता है, लेकिन आपको बिंदु मिल जाएगा। खराब बॉट अभी भी साइट की क्षमता को चुरा रहे हैं।

इससे पहले कि आप इसे लटका लें, यह लंबे समय तक नहीं होगा।


1

मुझे Baidu बॉट्स के साथ समस्या थी, मैंने अपने सर्वर को धीमा कर दिया, जबकि सर्च इंजन लगभग कोई ट्रैफ़िक नहीं भेज रहा था। इन बॉट्स का उपयोग नहीं करते।

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

मुझे बिंग / Microsoft मकड़ियों के साथ बहुत तेज़ रेंगने की भी समस्या है, Baidu के विपरीत वे robots.txt फ़ाइल का सम्मान करते हैं;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.