क्या हम URLs को ब्लॉक करने के लिए robots.txt फ़ाइल में regex का उपयोग कर सकते हैं?


23

मेरे पास कुछ डायनेमिक जेनरेट किए गए URL हैं।

क्या मैं इन URLs को किसी robots.txt फ़ाइल में ब्लॉक करने के लिए regex का उपयोग कर सकता हूं?


यह उन पृष्ठों पर रोबोट मेटा टैग सेट करने के लायक भी होगा जिन्हें आप क्रॉल / अनुक्रमित नहीं करना चाहते हैं।
एंड्रयू लॉट

@AndrewLott मेरे मामले में मैं और अधिक तो 500 पेज, तो मैं robots.txt में सोचा उपयोग regex है ..
Sudheera NJS

तब आपके साइट कोड में एक नियम संभवतः अधिक उपयोगी होता है।
एंड्रयू लॉट

जवाबों:


27

नियमित एक्सट्रैक्शन robots.txt में मान्य नहीं हैं, लेकिन Google, बिंग और कुछ अन्य बॉट कुछ पैटर्न मिलान को पहचानते हैं।

यदि आप सभी URL को ब्लॉक करना चाहते हैं example, जो URL में है, तो आप वाइल्ड कार्ड प्रविष्टि का उपयोग कर सकते हैं *

User-agent: *
Disallow: /*example

आप यह निर्दिष्ट करने के लिए भी डॉलर साइन $ का उपयोग कर सकते हैं कि URL को इस तरह समाप्त होना चाहिए। इसलिए यदि आप उन सभी URL को ब्लॉक करना चाहते हैं, जो उस URL को कहते हैं example, जो exampleआपके द्वारा उपयोग किए जा सकने वाले URL में कहीं और नहीं है :

User-agent: *
Disallow: /*example$

Google के लिए और अधिक गहराई से जानकारी यहाँ मिल सकती है: Robots.txt विनिर्देशों , बिंग यहाँ: कैसे एक Robots.txt फ़ाइल बनाने के लिए और यहाँ पर एक इंटरैक्टिव गाइड है Moz


बिल्कुल सही, * ठीक काम कर रहा है, वेब मास्टर टूल में परीक्षण किया गया .. धन्यवाद मैक्स ... :)
सुधीरा Njs

मैं आपके robots.txt फ़ाइल में बहुत अधिक फैंसी निर्देशों का उपयोग करने से सावधान रहूंगा; ये वास्तव में, वास्तव में बाद में डिबग करने के लिए कठिन हैं। जितना हो सके चीजों को सरल रखने की कोशिश करें। यह भी याद रखें कि robots.txt केस-संवेदी है, इसलिए आपको अपनी साइट के आधार पर निर्देशों के वैकल्पिक संस्करणों को जोड़ना पड़ सकता है।
जॉन म्यूलर

अच्छा होगा अगर रेगेक्स का समर्थन किया गया
SuperUberDuper
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.