सब कुछ अनुमति देने के लिए robots.txt को कैसे कॉन्फ़िगर करें?


116

robots.txtGoogle वेबमास्टर टूल में मेरा मूल्य निम्न मान दिखाता है:

User-agent: *
Allow: /

इसका क्या मतलब है? मुझे इसके बारे में पर्याप्त जानकारी नहीं है, इसलिए आपकी मदद की तलाश कर रहा हूं। मैं सभी रोबोट को अपनी वेबसाइट क्रॉल करने देना चाहता हूं, क्या यह सही कॉन्फ़िगरेशन है?


अनुमति सभी वेब क्रॉलरों द्वारा समझ में नहीं आती है, इसके स्थान पर डिस्लो का उपयोग करें: (यानी, इसके बाद कोई यूआरएल नहीं)। यह अधिक सुरक्षित है (देखें: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

जवाबों:


153

वह फ़ाइल सभी क्रॉलर को एक्सेस करने की अनुमति देगा

User-agent: *
Allow: /

यह मूल रूप से सभी उपयोगकर्ता एजेंटों (*) को साइट के सभी हिस्सों (/) की अनुमति देता है।


11
सही है, जब तक आपको अनुमति देने वाले भाग को नकारने की आवश्यकता नहीं है। "अनुमति" नहीं है इसलिए ऐसा करें: "उपयोगकर्ता-एजेंट: * अस्वीकृत करें:" जैसे वे यहां दिखाते हैं: robotstxt.org/robotstxt.html
vsdev

एक अनुमति हिस्सा है। आधिकारिक Google डॉक्स डेवलपरों की
http://www.search/reference/robots_txt#allow

60

यदि आप हर बॉट को सब कुछ क्रॉल करने की अनुमति देना चाहते हैं, तो यह आपके robots.txt में इसे निर्दिष्ट करने का सबसे अच्छा तरीका है:

User-agent: *
Disallow:

ध्यान दें कि Disallowफ़ील्ड का खाली मान है, जिसका अर्थ विनिर्देश के अनुसार है :

कोई भी रिक्त मान, इंगित करता है कि सभी URL पुनर्प्राप्त किए जा सकते हैं।


आपका तरीका (के Allow: /बजाय Disallow:) काम करता है, भी, लेकिन मूल robots.txt विनिर्देशAllow का हिस्सा नहीं है , इसलिए यह सभी बॉट्स द्वारा समर्थित नहीं है (कई लोकप्रिय इसे समर्थन करते हैं, हालांकि, Googlebot की तरह )। उस ने कहा, गैर-मान्यताप्राप्त क्षेत्रों को अनदेखा करना होगा, और बॉट्स के लिए जो पहचान नहीं करते हैं , परिणाम इस मामले में वैसे भी समान होगा: यदि कुछ भी रेंगने (साथ ) के लिए निषिद्ध नहीं है , तो सब कुछ रेंगने की अनुमति है। हालाँकि, औपचारिक रूप से (मूल कल्पना के अनुसार) यह एक अमान्य रिकॉर्ड है, क्योंकि कम से कम एक फ़ील्ड आवश्यक है:AllowDisallow
Disallow

एक रिकॉर्ड में कम से कम एक अस्वीकृत क्षेत्र को प्रस्तुत करने की आवश्यकता होती है।


17

मैं समझता हूं कि यह काफी पुराना प्रश्न है और इसके कुछ बहुत अच्छे उत्तर हैं। लेकिन, यहां पूर्णता के लिए मेरे दो सेंट हैं।

आधिकारिक प्रलेखन के अनुसार , चार तरीके हैं, आप अपनी साइट तक पहुंचने के लिए रोबोट के लिए पूर्ण उपयोग की अनुमति दे सकते हैं।

स्वच्छ:

@Unor द्वारा उल्लिखित एक खंड के साथ एक वैश्विक मिलान निर्दिष्ट करें। तो आपका /robots.txtलुक ऐसा है।

User-agent: *
Disallow:

हैक:

/robots.txtइसमें बिना कंटेंट वाली फाइल बनाएं । जो सभी प्रकार के सभी के लिए अनुमति देने के लिए डिफ़ॉल्ट होगा Bots

मुझे कोई परवाह नहीं है:

/robots.txtबिलकुल मत बनाओ। जो उपरोक्त दो के समान सटीक परिणाम देगा।

बदसूरत:

मेटा टैग के लिए रोबोट प्रलेखन से , आप अपनी साइट पर अपने सभी पृष्ठों पर निम्नलिखित मेटा टैग का उपयोग कर सकते हैं ताकि यह Botsपता चल सके कि इन पृष्ठों को अनुक्रमित नहीं किया जाना है।

<META NAME="ROBOTS" CONTENT="NOINDEX">

इसे आपकी पूरी साइट पर लागू करने के लिए, आपको अपने सभी पृष्ठों के लिए यह मेटा टैग जोड़ना होगा। और इस टैग को सख्ती से आपके HEADपेज के टैग के नीचे रखा जाना चाहिए । इस मेटा टैग के बारे में यहाँ और अधिक ।


कोई भी robots.txt और Wordpress हालांकि एक बुरा कॉम्बो नहीं है, क्योंकि वर्डप्रेस एक virtual robots.txt उत्पन्न करता है। जब तक आप एक वर्डप्रेस के साथ खुश नहीं होते हैं।
जेसपर

8

इसका मतलब है कि आप हर ( *) उपयोगकर्ता-एजेंट / क्रॉलर को /आपकी साइट के रूट ( ) तक पहुंचने की अनुमति देते हैं । क्या तुम ठीक हों।


5
robotstxt.org/robotstxt.html के अनुसार कोई "अनुमति दें" फ़ील्ड नहीं है, इसलिए मुझे इसका उपयोग करने में सावधानी बरतनी चाहिए। विकिपीडिया में उल्लेख किया गया है "कुछ प्रमुख क्रॉलर एक अनुमति देने वाले निर्देश का समर्थन करते हैं, जो निम्नलिखित अस्वीकृति निर्देश का प्रतिकार कर सकता है।": en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Mackaaijaij
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.