सब कुछ अनुमति देने के लिए robots.txt को कैसे कॉन्फ़िगर करें?

116

robots.txtGoogle वेबमास्टर टूल में मेरा मूल्य निम्न मान दिखाता है:

User-agent: *
Allow: /

इसका क्या मतलब है? मुझे इसके बारे में पर्याप्त जानकारी नहीं है, इसलिए आपकी मदद की तलाश कर रहा हूं। मैं सभी रोबोट को अपनी वेबसाइट क्रॉल करने देना चाहता हूं, क्या यह सही कॉन्फ़िगरेशन है?

robots.txt

— Raajpoot
स्रोत

अनुमति सभी वेब क्रॉलरों द्वारा समझ में नहीं आती है, इसके स्थान पर डिस्लो का उपयोग करें: (यानी, इसके बाद कोई यूआरएल नहीं)। यह अधिक सुरक्षित है (देखें: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

वह फ़ाइल सभी क्रॉलर को एक्सेस करने की अनुमति देगा

User-agent: *
Allow: /

यह मूल रूप से सभी उपयोगकर्ता एजेंटों (*) को साइट के सभी हिस्सों (/) की अनुमति देता है।

— जिम
स्रोत

11

सही है, जब तक आपको अनुमति देने वाले भाग को नकारने की आवश्यकता नहीं है। "अनुमति" नहीं है इसलिए ऐसा करें: "उपयोगकर्ता-एजेंट: * अस्वीकृत करें:" जैसे वे यहां दिखाते हैं: robotstxt.org/robotstxt.html

— vsdev

एक अनुमति हिस्सा है। आधिकारिक Google डॉक्स डेवलपरों की

— http://www.search/reference/robots_txt#allow

60

यदि आप हर बॉट को सब कुछ क्रॉल करने की अनुमति देना चाहते हैं, तो यह आपके robots.txt में इसे निर्दिष्ट करने का सबसे अच्छा तरीका है:

User-agent: *
Disallow:

ध्यान दें कि Disallowफ़ील्ड का खाली मान है, जिसका अर्थ विनिर्देश के अनुसार है :

कोई भी रिक्त मान, इंगित करता है कि सभी URL पुनर्प्राप्त किए जा सकते हैं।

आपका तरीका (के Allow: /बजाय Disallow:) काम करता है, भी, लेकिन मूल robots.txt विनिर्देशAllow का हिस्सा नहीं है , इसलिए यह सभी बॉट्स द्वारा समर्थित नहीं है (कई लोकप्रिय इसे समर्थन करते हैं, हालांकि, Googlebot की तरह )। उस ने कहा, गैर-मान्यताप्राप्त क्षेत्रों को अनदेखा करना होगा, और बॉट्स के लिए जो पहचान नहीं करते हैं , परिणाम इस मामले में वैसे भी समान होगा: यदि कुछ भी रेंगने (साथ ) के लिए निषिद्ध नहीं है , तो सब कुछ रेंगने की अनुमति है। हालाँकि, औपचारिक रूप से (मूल कल्पना के अनुसार) यह एक अमान्य रिकॉर्ड है, क्योंकि कम से कम एक फ़ील्ड आवश्यक है:AllowDisallow
Disallow

एक रिकॉर्ड में कम से कम एक अस्वीकृत क्षेत्र को प्रस्तुत करने की आवश्यकता होती है।

— UNOR
स्रोत

17

मैं समझता हूं कि यह काफी पुराना प्रश्न है और इसके कुछ बहुत अच्छे उत्तर हैं। लेकिन, यहां पूर्णता के लिए मेरे दो सेंट हैं।

आधिकारिक प्रलेखन के अनुसार , चार तरीके हैं, आप अपनी साइट तक पहुंचने के लिए रोबोट के लिए पूर्ण उपयोग की अनुमति दे सकते हैं।

स्वच्छ:

@Unor द्वारा उल्लिखित एक खंड के साथ एक वैश्विक मिलान निर्दिष्ट करें। तो आपका /robots.txtलुक ऐसा है।

User-agent: *
Disallow:

हैक:

/robots.txtइसमें बिना कंटेंट वाली फाइल बनाएं । जो सभी प्रकार के सभी के लिए अनुमति देने के लिए डिफ़ॉल्ट होगा Bots।

मुझे कोई परवाह नहीं है:

/robots.txtबिलकुल मत बनाओ। जो उपरोक्त दो के समान सटीक परिणाम देगा।

बदसूरत:

मेटा टैग के लिए रोबोट प्रलेखन से , आप अपनी साइट पर अपने सभी पृष्ठों पर निम्नलिखित मेटा टैग का उपयोग कर सकते हैं ताकि यह Botsपता चल सके कि इन पृष्ठों को अनुक्रमित नहीं किया जाना है।

<META NAME="ROBOTS" CONTENT="NOINDEX">

इसे आपकी पूरी साइट पर लागू करने के लिए, आपको अपने सभी पृष्ठों के लिए यह मेटा टैग जोड़ना होगा। और इस टैग को सख्ती से आपके HEADपेज के टैग के नीचे रखा जाना चाहिए । इस मेटा टैग के बारे में यहाँ और अधिक ।

— राजा अनबझगन
स्रोत

कोई भी robots.txt और Wordpress हालांकि एक बुरा कॉम्बो नहीं है, क्योंकि वर्डप्रेस एक virtual robots.txt उत्पन्न करता है। जब तक आप एक वर्डप्रेस के साथ खुश नहीं होते हैं।

— जेसपर

8

इसका मतलब है कि आप हर ( *) उपयोगकर्ता-एजेंट / क्रॉलर को /आपकी साइट के रूट ( ) तक पहुंचने की अनुमति देते हैं । क्या तुम ठीक हों।

— जोर्डी
स्रोत

5

robotstxt.org/robotstxt.html के अनुसार कोई "अनुमति दें" फ़ील्ड नहीं है, इसलिए मुझे इसका उपयोग करने में सावधानी बरतनी चाहिए। विकिपीडिया में उल्लेख किया गया है "कुछ प्रमुख क्रॉलर एक अनुमति देने वाले निर्देश का समर्थन करते हैं, जो निम्नलिखित अस्वीकृति निर्देश का प्रतिकार कर सकता है।": en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaijaij