अगर मैं कोई विशेष व्यवहार सेट नहीं करना चाहता हूं, तो क्या यह ठीक है यदि मैं एक robots.txt फ़ाइल को परेशान नहीं करता हूं?


29

अगर मैं कोई विशेष व्यवहार सेट नहीं करना चाहता हूं, तो क्या यह ठीक है यदि मैं एक robots.txt फ़ाइल को परेशान नहीं करता हूं?

या एक की कमी हानिकारक हो सकती है?

जवाबों:


30

Robots.txt फ़ाइल का अभाव हानिकारक नहीं होगा। से robotstxt.org वेबसाइट :

सभी रोबोट को पूर्ण पहुंच प्रदान करने के लिए

उपयोगकर्ता-एजेंट: *
अस्वीकृत करें:

(या बस एक खाली "/robots.txt" फ़ाइल बनाएँ, या एक का उपयोग न करें)

हालाँकि, भले ही आप अपने robots.txt फ़ाइल में कुछ भी निर्दिष्ट नहीं कर रहे हों, यह आपके XML साइटमैप के खोज इंजन को सूचित करने का एक अच्छा तरीका है । आप अपने robots.txt फ़ाइल के शीर्ष पर एक पंक्ति जोड़कर ऐसा कर सकते हैं जो कुछ इस तरह दिखता है:

साइटमैप: http://www.example.com/sitemap-host1.xml

आपको यह भी पता होना चाहिए कि ऐसा नहीं होने से आपके वेब लॉग में बहुत सारी 404 प्रविष्टियाँ बन जाएंगी।


+1 - अच्छा सारांश, हालांकि मैं वास्तव में इस बात पर जोर दूंगा कि किनकोपिको ने पहले से ही सही ढंग से जोर दिया है : बस उन 404 से बचने के लिए सबसे बुनियादी या यहां तक ​​कि एक खाली बनाएं और (आपकी साइट 404 पेज हैंडलिंग के आधार पर) संभवतः काफी कुछ ट्रैफिक / बैंडविड्थ , क्योंकि खोज इंजन अपरिवर्तित होने पर फ़ाइल को फिर से डाउनलोड करने के लिए उचित HTTP कैश नियंत्रण लागू करेगा , चाहे वह खाली हो या न हो।
स्टीफन ओपल

विकी के रूप में चिह्नित, कृपया जैसा कि आप फिट देखते हैं संपादित करें।
जेसनबिरच

21

यदि आपके पास "robots.txt" नहीं है, तो आपकी त्रुटि लॉग को फ़ाइल पर बहुत सारे 404s मिलेंगे, जो कि एक प्रकार की झुंझलाहट हो सकती है, यदि आपके पास फ़ेविकॉन नहीं है।


1
एक उत्कृष्ट बिंदु ..
जेफ एटवुड

1
+1 - मैं यह जोड़ना चाहता हूं कि आप न सिर्फ अपने आप को बड़ी और शोर लॉग फ़ाइलों से बचाएं, बल्कि अपनी साइटों (404 पृष्ठ से निपटने पर निर्भर करता है) संभावित रूप से कुछ ट्रैफ़िक / बैंडविड्थ के साथ-साथ अधिकांश 404 पृष्ठों के कारण भी बच सकते हैं एक साधारण robots.txtफ़ाइल की तुलना में बड़ा , जो उचित HTTP कैश नियंत्रण को लागू करने वाले खोज इंजनों के कारण अक्सर कम डाउनलोड किया जाएगा ।
स्टीफन ओपल

6

मुझे लगता है कि यह होगा है ठीक हो सकता है, अन्यथा वेब की भारी swaths वेब मकड़ियों द्वारा संयुक्त राष्ट्र-सूचीबद्ध किया जाएगा।

कोई robots.txtभी "सभी द्वारा अनुक्रमण की अनुमति दें" जैसा नहीं है robots.txt


2

Robots.txt फ़ाइल की कमी क्रॉलर तक यह तय करने के लिए छोड़ देती है कि वह क्या कर सकता है और क्या नहीं। चूंकि किसी भी तरह की अस्पष्टता से बचने के लिए केवल कुछ सेकंड लगते हैं, इसलिए सिर्फ एक ही क्यों न करें जो सभी एजेंटों को सब कुछ एक्सेस करने की अनुमति देता है?


0

चूंकि, robots.txtआपके साइटमैप का पता सम्‍मिलित है , ऐसा न होना संभावित रूप से हानिकारक है।


साइटमैप केवल कुछ प्रकार की वेबसाइटों के लिए मददगार है, हालांकि, IMO
Jeff Atwood

मैं भी देखा है क्रॉलर्स /sitemap.xml या robots.txt के अभाव में /sitemap.gz के लिए देखो (विशेष रूप से गूगल)
टिम पोस्ट

आपको अपने robots.txt में अपना साइटमैप रखने की आवश्यकता नहीं है, आप इसे वैसे भी Google / Yahoo / Bing में सबमिट कर सकते हैं। यह निश्चित रूप से "संभावित रूप से हानिकारक" नहीं है।
असंतुष्टगीतगृह

0

आपकी सामग्री पर निर्भर करता है कि जब तक आप अपनी साइट पर प्रत्येक पृष्ठ को खोज इंजनों पर अनुक्रमित नहीं करते, तब तक कोई रोबोट फ़ाइल नहीं होने के साथ कोई समस्या नहीं होनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.