केवल Google और बिंग बॉट को किसी साइट को क्रॉल करने की अनुमति दें


10

मैं एक साइट के लिए निम्नलिखित robots.txt फ़ाइल का उपयोग कर रहा हूं: लक्ष्य Googlebot और bingbot को पृष्ठ को छोड़कर साइट तक पहुंचने और साइट को /bedven/bedrijf/*क्रॉल करने से अन्य सभी बॉट्स को ब्लॉक करने की अनुमति देता है ।

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

क्या अंतिम नियम User-agent: * Disallow: /सभी बॉट्स को साइट पर हर पेज को क्रॉल करने से रोकता है?


11
यह पूरा कार्य मुझे चिंतित करता है। अन्य खोज इंजन हैं, और जो भी उनका उपयोग करता है वह आपकी साइट नहीं देखेगा। theeword.co.uk/info/search_engine_market का कहना है कि इंटरनेट का 4.99% आपके खोज इंजन पर नहीं है। वह बहुत सारे लोग हैं। एक बेहतर तरीका यह होगा कि आप अपने ट्रैफ़िक पर नज़र रखें और देखें कि क्या वास्तव में कोई बॉट समस्या पैदा करता है, तो विशेष रूप से उन लोगों को ब्लॉक करें।
GKFX

8
एक दुर्व्यवहार करने वाला बॉट आपके robots.txtरास्ते को पूरी तरह से नजरअंदाज कर सकता है
निक टी

8
वास्तव में खराब बॉट रोबोट के बारे में परवाह नहीं करते हैं। Txt
Osvaldo

4
@NickT, वास्तविक दुनिया में, खराब व्यवहार वाले बॉट्स की कमी नहीं है robots.txt, जो कम से कम Disallow: /नियम का पालन करते हैं । यदि आपकी निजी वेबसाइट जमीन में धंसती जा रही है, क्योंकि एक बॉट प्रोग्रामर ने कभी नहीं माना कि सर्वर 256 राब्ड कनेक्शन के गलत छोर पर रास्पबेरी पाई हो सकता है, तो इस तरह एक कंबल बहिष्करण उपयोगी है।
मार्क

2
@ कंसोल क्यों?
ओ ० '।

जवाबों:


24

आखिरी रिकॉर्ड (शुरू किया गया User-agent: *) सभी विनम्र बॉट द्वारा पीछा किया जाएगा जो खुद को "googlebot", "google", "bingbot" या "bing" के रूप में पहचान नहीं करते हैं।
और हां, इसका मतलब है कि उन्हें कुछ भी क्रॉल करने की अनुमति नहीं है।

आप में छोड़ना चाहते हो सकता *है /bedven/bedrijf/*
मूल robots.txt विनिर्देश में, *इसका कोई विशेष अर्थ नहीं है, यह किसी भी अन्य की तरह ही एक चरित्र है। इसलिए यह केवल उन पृष्ठों के क्रॉलिंग को समाप्त कर देगा *जो उनके URL में अक्षर हैं ।
हालांकि Google उस संबंध में robots.txt विनिर्देश का पालन नहीं करता है, क्योंकि वे *"वर्णों के किसी भी अनुक्रम" के लिए वाइल्डकार्ड के रूप में उपयोग करते हैं, इस मामले में उनके लिए इसकी आवश्यकता नहीं है : /bedven/bedrijf/*और /bedven/bedrijf/इसका मतलब बिल्कुल वही होगा: सभी URL को अवरुद्ध करें जिनका पथ से शुरू होता है /bedven/bedrijf/

और अंत में, आप अपने robots.txt को दो रिकॉर्ड तक कम कर सकते हैं, क्योंकि एक रिकॉर्ड में कई User-agentलाइनें हो सकती हैं :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
ध्यान दें कि Google robots.txt में क्रॉल-विलंब निर्देश को अनदेखा करता है। आपको इसके बजाय Google वेबमास्टर टूल में सेट करना होगा।
असंतुष्टगीत

-2

बॉट्स, विशेष रूप से बुरे लोग, robots.txt फ़ाइल को अनदेखा कर सकते हैं। तो कोई बात नहीं वहाँ कुछ बॉट आपकी साइट को क्रॉल कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.