केवल Google और बिंग बॉट को किसी साइट को क्रॉल करने की अनुमति दें

मैं एक साइट के लिए निम्नलिखित robots.txt फ़ाइल का उपयोग कर रहा हूं: लक्ष्य Googlebot और bingbot को पृष्ठ को छोड़कर साइट तक पहुंचने और साइट को /bedven/bedrijf/*क्रॉल करने से अन्य सभी बॉट्स को ब्लॉक करने की अनुमति देता है ।

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

क्या अंतिम नियम User-agent: * Disallow: /सभी बॉट्स को साइट पर हर पेज को क्रॉल करने से रोकता है?

web-crawlers robots.txt

— कंसोल
स्रोत

यह पूरा कार्य मुझे चिंतित करता है। अन्य खोज इंजन हैं, और जो भी उनका उपयोग करता है वह आपकी साइट नहीं देखेगा। theeword.co.uk/info/search_engine_market का कहना है कि इंटरनेट का 4.99% आपके खोज इंजन पर नहीं है। वह बहुत सारे लोग हैं। एक बेहतर तरीका यह होगा कि आप अपने ट्रैफ़िक पर नज़र रखें और देखें कि क्या वास्तव में कोई बॉट समस्या पैदा करता है, तो विशेष रूप से उन लोगों को ब्लॉक करें।

— GKFX

एक दुर्व्यवहार करने वाला बॉट आपके robots.txtरास्ते को पूरी तरह से नजरअंदाज कर सकता है

— निक टी

वास्तव में खराब बॉट रोबोट के बारे में परवाह नहीं करते हैं। Txt

— Osvaldo

@NickT, वास्तविक दुनिया में, खराब व्यवहार वाले बॉट्स की कमी नहीं है robots.txt, जो कम से कम Disallow: /नियम का पालन करते हैं । यदि आपकी निजी वेबसाइट जमीन में धंसती जा रही है, क्योंकि एक बॉट प्रोग्रामर ने कभी नहीं माना कि सर्वर 256 राब्ड कनेक्शन के गलत छोर पर रास्पबेरी पाई हो सकता है, तो इस तरह एक कंबल बहिष्करण उपयोगी है।

— मार्क

@ कंसोल क्यों?

— ओ ० '।

जवाबों:

आखिरी रिकॉर्ड (शुरू किया गया User-agent: *) सभी विनम्र बॉट द्वारा पीछा किया जाएगा जो खुद को "googlebot", "google", "bingbot" या "bing" के रूप में पहचान नहीं करते हैं।
और हां, इसका मतलब है कि उन्हें कुछ भी क्रॉल करने की अनुमति नहीं है।

आप में छोड़ना चाहते हो सकता *है /bedven/bedrijf/*।
मूल robots.txt विनिर्देश में, *इसका कोई विशेष अर्थ नहीं है, यह किसी भी अन्य की तरह ही एक चरित्र है। इसलिए यह केवल उन पृष्ठों के क्रॉलिंग को समाप्त कर देगा *जो उनके URL में अक्षर हैं ।
हालांकि Google उस संबंध में robots.txt विनिर्देश का पालन नहीं करता है, क्योंकि वे *"वर्णों के किसी भी अनुक्रम" के लिए वाइल्डकार्ड के रूप में उपयोग करते हैं, इस मामले में उनके लिए इसकी आवश्यकता नहीं है : /bedven/bedrijf/*और /bedven/bedrijf/इसका मतलब बिल्कुल वही होगा: सभी URL को अवरुद्ध करें जिनका पथ से शुरू होता है /bedven/bedrijf/।

और अंत में, आप अपने robots.txt को दो रिकॉर्ड तक कम कर सकते हैं, क्योंकि एक रिकॉर्ड में कई User-agentलाइनें हो सकती हैं :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— UNOR
स्रोत

ध्यान दें कि Google robots.txt में क्रॉल-विलंब निर्देश को अनदेखा करता है। आपको इसके बजाय Google वेबमास्टर टूल में सेट करना होगा।

— असंतुष्टगीत

-2

बॉट्स, विशेष रूप से बुरे लोग, robots.txt फ़ाइल को अनदेखा कर सकते हैं। तो कोई बात नहीं वहाँ कुछ बॉट आपकी साइट को क्रॉल कर सकता है।

— अतीस लुगुज़्स
स्रोत